概念
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
一个简单例子:银行通过申请人的工资和年龄来评估贷款人可贷款的额度,年龄X1和工资X2是两个特征,我们希望通过X1、X2两个特征来判断贷款额度y。
工资 | 年龄 | 额度 |
---|---|---|
4000 | 25 | 20000 |
8000 | 30 | 70000 |
5000 | 28 | 35000 |
7500 | 33 | 50000 |
12000 | 40 | 85000 |
最小二乘法
上面银行贷款的例子,通过已有X1、X2和y的取值确定拟合平面
h
θ
=
θ
0
+
θ
1
X
1
+
θ
2
X
2
h_{\theta}=\theta_{0}+\theta_{1}X_{1}+\theta_{2}X_{2}
hθ=θ0+θ1X1+θ2X2即
h
θ
=
∑
i
=
0
i
=
m
θ
T
X
i
h_{\theta}=\sum_{i=0}^{i=m}\theta^{T}X_{i}
hθ=i=0∑i=mθTXi
真实值与预测值之间的误差用
ε
\varepsilon
ε表示,则
y
(
i
)
=
θ
T
X
(
i
)
+
ε
(
i
)
y^{(i)}=\theta^{T}X^{(i)}+\varepsilon^{(i)}
y(i)=θTX(i)+ε(i)
误差
ε
(
i
)
\varepsilon^{(i)}
ε(i)服从均值为0,方差为
θ
2
\theta^{2}
θ2的高斯分布,因此,
即
亦即确定合适的
θ
\theta
θ使得y发生的概率最大,即可建立似然函数
转换为对数似然:
我们的目标是使得似然函数的值越大越好,因此,通过上式目标可以转化为求J(
θ
\theta
θ)的最小值,亦即最小二乘法。
梯度下降求解
logistic回归
线性回归同样可以用于分类问题,通过Sigmoid函数建立回归与分类之间的联系,
Sigmoid函数:
g
=
1
/
(
1
+
e
−
z
)
g=1/(1+e^{-z})
g=1/(1+e−z), 为一个定义域为-
∞
到
+
∞
\infty到+\infty
∞到+∞,值域为[0,1]的函数,因此,通过线性回归得到一个预测值,再将这个预测值输入到Sigmoid函数,会输出一个[0,1]之间的一个值,这个值为事件发生的概率,因此,可以用于分类问题。Sigmoid函数图像如下:
同样,建立似然函数
对对数似然函数求导: