线性模型
1.基本形式
f
(
x
)
=
w
1
x
1
+
w
2
x
2
+
.
.
.
+
w
d
x
d
f(x)=w_1x_1+w_2x_2+...+w_dx_d
f(x)=w1x1+w2x2+...+wdxd
f
(
x
)
=
w
T
x
+
b
f(x)=w^Tx+b
f(x)=wTx+b
w
:
w:
w:weight
b
:
b:
b:bias
线性模型具有可解释性:
w
i
w_i
wi的值越大,
i
i
i属性越重要。
2.线性回归
f ( x i ) = w x i + b = > f ( x i ) ≃ y i f(x_i)=wx_i+b=>f(x_i)\simeq{y_i} f(xi)=wxi+b=>f(xi)≃yi
对属性的处理有两种形式:
(1)对离散属性,如果存在“序”的关系,则通过连续化将其转化为连续值。
(2)不存在“序的关系”,则转化为向量形式。
用均方误差衡量回归性能:
(
w
∗
,
b
∗
)
=
a
r
g
m
i
i
n
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
(w^*,b^*)=argmiin_{(w,b)}\sum^m_{i=1}(f(x_i)-y_i)^2
(w∗,b∗)=argmiin(w,b)i=1∑m(f(xi)−yi)2
m
:
m:
m:m个样本
多元线性回归
f
(
x
i
)
=
w
T
x
i
+
b
f(x_i)=w^Tx_i+b
f(xi)=wTxi+b
f
(
x
i
)
≃
y
i
f(x_i)\simeq{y_i}
f(xi)≃yi
m个样本,每个样本d个属性。
X
:
m
×
(
d
+
1
)
X:m\times{(d+1)}
X:m×(d+1)
w
^
=
(
w
;
b
)
:
(
d
+
1
)
×
m
\widehat{w}=(w;b): (d+1)\times{m}
w
=(w;b):(d+1)×m
y
=
(
y
1
;
y
2
;
.
.
.
;
y
m
)
:
m
×
1
y=(y_1;y_2;...;y_m):m\times{1}
y=(y1;y2;...;ym):m×1
w
^
∗
=
a
r
g
m
i
n
w
^
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
\widehat{w}^*=argmin_{\widehat{w}}(y-X\widehat{w})^T(y-X\widehat{w})
w
∗=argminw
(y−Xw
)T(y−Xw
)
当
X
T
X
正
定
时
:
X^TX正定时:
XTX正定时:
w
^
∗
=
(
X
T
X
)
−
1
X
T
y
\widehat{w}^*=(X^TX)^{-1}X^Ty
w
∗=(XTX)−1XTy
3.线性回归demo
https://blog.csdn.net/Xiao_yanling/article/details/89602535
4.广义线性模型
g
:
g:
g:单调可微函数
y
=
g
−
1
(
w
T
x
+
b
)
y=g^{-1}(w^Tx+b)
y=g−1(wTx+b)
5.对数几率回归
在二分类任务中,替代单位阶跃函数的单调可微函数。
S
i
g
m
o
i
d
Sigmoid
Sigmoid函数:
g
(
z
)
=
1
1
+
e
−
z
g(z)=\frac{1}{1+e^{-z}}
g(z)=1+e−z1
自变量取值为任一实数,值域为【0,1】
解释:将任意的输入映射到了【0,1】区间,在线性回归中可以得到一个预测值,再将该值映射到
S
i
g
m
o
i
d
Sigmoid
Sigmoid函数,这样就完成了由值到概率的转换,也就是分类任务。