(一)机器学习之多变量线性回归
(1) 常用符号
以房价模型为例(这里随意给出的数据):
房屋面积 ( m 2 ) (m^2) (m2) | 卧室数量 | 房屋层数 | 房屋年龄(年) | 价格(万元) |
---|---|---|---|---|
390 | 6 | 4 | 20 | 400 |
1000 | 8 | 3 | 5 | 5888 |
600 | 10 | 3 | 10 | 1286 |
200 | 4 | 1 | 3 | 286 |
n
n
n:表示特征的数量
x
(
i
)
{x^{\left( i \right)}}
x(i):表示第
i
i
i 个训练实例(训练样本),是特征矩阵中的第
i
i
i行,是一个向量(vector)。例如:
x
(
2
)
=
[
1000
8
3
5
]
{x}^{(2)}\text{=}\begin{bmatrix} 1000\\ 8\\ 3\\ 5 \end{bmatrix}
x(2)=⎣⎢⎢⎡1000835⎦⎥⎥⎤
x j ( i ) {x}_{j}^{\left( i \right)} xj(i):表示特征矩阵中第 i i i 行的第 j j j 个特征,也就是第 i i i 个训练实例(训练样本)的第 j j j 个特征。例如: x 2 ( 2 ) = 8 , x 3 ( 2 ) = 3 x_{2}^{\left( 2 \right)}=8,x_{3}^{\left( 2 \right)}=3 x2(2)=8,x3(2)=3,
支持多变量的函数
h
h
h 表示为:
h
θ
(
x
)
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
.
.
.
+
θ
n
x
n
h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}
hθ(x)=θ0+θ1x1+θ2x2+...+θnxn,
这个公式中有
n
+
1
n+1
n+1个参数和
n
n
n个变量,为了使得公式能够简化一些,引入
x
0
=
1
x_{0}=1
x0=1,则公式转化为:
h
θ
(
x
)
=
θ
0
x
0
+
θ
1
x
1
+
θ
2
x
2
+
.
.
.
+
θ
n
x
n
h_{\theta} \left( x \right)={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}
hθ(x)=θ0x0+θ1x1+θ2x2+...+θnxn
此时模型中的参数是一个
n
+
1
n+1
n+1维的向量,任何一个训练实例(训练样本)也都是
n
+
1
n+1
n+1维的向量,特征矩阵
X
X
X的维度是
m
∗
(
n
+
1
)
m*(n+1)
m∗(n+1)。 因此公式可以简化为:
h
θ
(
x
)
=
θ
T
X
h_{\theta} \left( x \right)={\theta^{T}}X
hθ(x)=θTX,其中上标
T
T
T代表矩阵转置。
注意:这里的
h
θ
(
x
)
=
θ
T
X
h_{\theta} \left( x \right)={\theta^{T}}X
hθ(x)=θTX表示的是全部训练样本的输出值,因为特征矩阵X表示的是所有的训练样本
注意:下面图片中的
h
θ
(
x
)
=
θ
T
X
h_{\theta} \left( x \right)={\theta^{T}}X
hθ(x)=θTX表示的是其中一个训练样本的输出值,因为下面的特征向量X表示的是其中一个的训练样本
(2) 多变量线性回归的梯度下降算法
多变量线性回归的代价函数: J ( θ 0 , θ 1 . . . θ n ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J\left( {\theta_{0}},{\theta_{1}}...{\theta_{n}} \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}} J(θ0,θ1...θn)=2m1i=1∑m(hθ(x(i))−y(i))2 ,
其中:
h
θ
(
x
)
=
θ
T
X
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
.
.
.
+
θ
n
x
n
h_{\theta}\left( x \right)=\theta^{T}X={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}
hθ(x)=θTX=θ0+θ1x1+θ2x2+...+θnxn
(也可以写成
h
θ
(
x
)
=
θ
T
X
=
θ
0
x
0
+
θ
1
x
1
+
θ
2
x
2
+
.
.
.
+
θ
n
x
n
h_{\theta}\left( x \right)=\theta^{T}X={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}
hθ(x)=θTX=θ0x0+θ1x1+θ2x2+...+θnxn,其中
x
0
=
1
{x_{0}}=1
x0=1)
为了找出使得代价函数最小的一系列参数,我们运用(批量)梯度下降算法:
Repeat{
θ
j
:
=
θ
j
−
α
∂
∂
θ
j
J
(
θ
0
,
θ
1
,
.
.
.
,
θ
n
)
{\theta_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}J\left(\theta_{0}, \theta_{1},...,\theta_{n}\right)
θj:=θj−α∂θj∂J(θ0,θ1,...,θn)
}
即:
Repeat{
θ
j
:
=
θ
j
−
α
∂
∂
θ
j
1
2
m
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
{\theta_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}
θj:=θj−α∂θj∂2m1i=1∑m(hθ(x(i))−y(i))2
}
求导数后得到:
Repeat{
θ
j
:
=
θ
j
−
α
1
m
∑
i
=
1
m
(
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
)
{{\theta _j}}:={{\theta _j}}- \alpha\frac{1}{m}\sum\limits_{i=1}^{m}{(({{h_\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{j}^{(i)})
θj:=θj−αm1i=1∑m((hθ(x(i))−y(i))xj(i))
(记得同步更新
θ
j
{\theta _j}
θj, for j = 0,1,…,n)
}
当 n > = 1 n>=1 n>=1时, θ 0 : = θ 0 − a 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x 0 ( i ) {{\theta _0}}:={{\theta _0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h_\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{0}^{(i)} θ0:=θ0−am1i=1∑m(hθ(x(i))−y(i))x0(i)
θ 1 : = θ 1 − a 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x 1 ( i ) {{\theta _1}}:={{\theta _1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h_\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{1}^{(i)} θ1:=θ1−am1i=1∑m(hθ(x(i))−y(i))x1(i)
θ 2 : = θ 2 − a 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x 2 ( i ) {{\theta _2}}:={{\theta _2}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h_\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{2}^{(i)} θ2:=θ2−am1i=1∑m(hθ(x(i))−y(i))x2(i)
我们一开始随机选择一系列的参数值,计算所有的预测结果后,再根据梯度下降算法给所有的参数一个新的值,如此循环直到收敛。