一、线性回归
线性回归(linear regression)是回归问题中的一种,其假设目标值与特征之间线性相关,即满足一个多元一次方程。线性回归的目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。
二、简单线性回归
样本只有一个特征x,目标值为y;
假设
h
(
x
)
=
θ
0
+
θ
1
x
h(x)=\theta_{0}+\theta_{1}x
h(x)=θ0+θ1x
则参数为
θ
0
、
θ
1
\theta_{0}、\theta_{1}
θ0、θ1
代价函数为
J
(
θ
0
,
θ
1
)
=
1
2
m
∑
i
=
1
m
[
h
θ
(
x
i
)
−
y
i
]
2
=
1
2
m
∑
i
=
1
m
(
θ
0
+
θ
1
x
i
−
y
i
)
2
\begin{aligned} J(\theta_{0},\theta_{1})&=\frac{1}{2m}\sum_{i=1}^{m}[h_{\theta}(x_{i})-y_{i}]^2\\ &=\frac{1}{2m}\sum_{i=1}^{m}(\theta_{0}+\theta_{1}x_{i}-y_{i})^2 \end{aligned}
J(θ0,θ1)=2m1i=1∑m[hθ(xi)−yi]2=2m1i=1∑m(θ0+θ1xi−yi)2
我们的目标就是要求得代价函数最小时对应的参数
θ
\theta
θ
三、多元线性回归
当每个样本有多个(n个)特征变量x时,样本整体(m个)可以如下表示
(
x
11
,
x
12
,
x
13
,
.
.
.
,
x
1
n
,
y
1
)
(
x
21
,
x
22
,
x
23
,
.
.
.
,
x
2
n
,
y
2
)
.
.
.
(
x
m
1
,
x
m
2
,
x
m
3
,
.
.
.
,
x
m
n
,
y
m
)
(x_{11},x_{12},x_{13},...,x_{1n},y_{1})\\ (x_{21},x_{22},x_{23},...,x_{2n},y_{2})\\ ...\\ (x_{m1},x_{m2},x_{m3},...,x_{mn},y_{m})\\
(x11,x12,x13,...,x1n,y1)(x21,x22,x23,...,x2n,y2)...(xm1,xm2,xm3,...,xmn,ym)
则假设函数为
h
(
X
i
)
=
θ
0
+
θ
1
x
i
1
+
θ
2
x
i
2
+
.
.
.
+
θ
n
x
i
n
h({X_{i}})=\theta_{0}+\theta_{1}x_{i1}+\theta_{2}x_{i2}+...+\theta_{n}x_{in}
h(Xi)=θ0+θ1xi1+θ2xi2+...+θnxin
其中
i
=
1
,
2
,
3
,
.
.
.
,
m
i=1,2,3,...,m
i=1,2,3,...,m,用矩阵乘法方式表示为
h
θ
(
X
)
=
[
θ
0
θ
1
θ
2
.
.
.
θ
n
]
[
1
1
.
.
.
1
x
11
x
21
.
.
.
x
m
1
x
12
x
22
.
.
.
x
m
2
.
.
.
x
1
n
x
2
n
.
.
.
x
m
n
]
=
θ
T
X
\begin{aligned} h_{\theta}(X)&=[\theta_{0}\quad\theta_{1}\quad\theta_{2}\quad...\quad\theta_{n}] \left[\begin{array}{cccc} 1 & 1 &...&1\\ x_{11} & x_{21} &...&x_{m1}\\ x_{12} & x_{22} &...&x_{m2}\\ &&...&\\ x_{1n} & x_{2n} &...&x_{mn} \end{array}\right]\\ &=\theta^{T}X \end{aligned}
hθ(X)=[θ0θ1θ2...θn]⎣⎢⎢⎢⎢⎡1x11x12x1n1x21x22x2n...............1xm1xm2xmn⎦⎥⎥⎥⎥⎤=θTX