回归算法——理论、实践
手写理论
线性回归理论
线性回归
y = ax+b
误差 ε ( i ) ( 1 ≤ i ≤ m ) \varepsilon^{(i)}(1\leq i \leq m) ε(i)(1≤i≤m)是独立同分布的,服从均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的高斯(正态)分布。
最小二乘法: m i n ∑ i = 1 n ε ′ ε min \sum_{i=1}^n \varepsilon' \varepsilon min∑i=1nε′ε
理论基础:最小二乘、正则化、过拟合
θ
\theta
θ的解析式的求解过程:
最小二乘意义下的参数最优解:
加入
λ
\lambda
λ扰动后:
线性回归的复杂程度惩罚因子:
PS:L1正则使得变量的系数都尽可能的小,趋近于0,可用来做特征选择。
正则项与防止过拟合:(
λ
>
0
,
ρ
ϵ
[
0
,
1
]
\lambda>0,\rho\epsilon[0,1]
λ>0,ρϵ[0,1])
机器学习与数据使用:
PS:在训练数据上,每给定一个
λ
\lambda
λ,都会得到相应的
θ
\theta
θ;在验证数据上(为了选定超参
λ
\lambda
λ),用在前面训练数据上得到的
(
θ
,
λ
)
(\theta,\lambda)
(θ,λ)组合,得到每组的误差值,从而可以得到最优超参的应用于测试数据。
Moore-Penrose广义逆矩阵(伪逆)
SVD计算矩阵的广义逆:
PS:计算出矩阵A的伪逆,乘以 y 就可以得到
θ
\theta
θ 。
梯度下降算法
目标函数:
J
(
θ
)
=
1
2
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2
J(θ)=21∑i=1m(hθ(x(i))−y(i))2
梯度方向:
批量梯度下降算法(BGD):
随机梯度下降(SGD):
折中:mini-batch (SGD)最常用的
【衡量指标】
局部加权回归
权值的设置:
Logistic回归、Soft-max回归
Logistic回归
Logistic 参数估计:
对数似然函数:
参数的迭代:PS:线性回归是假定模型服从高斯分布,利用最大似然估计(MLE)推导的,Logistic回归是假定模型服从二项分布,利用最大似然估计推导的。
同样,利用伯努利分布、泊松分布也能得到相应的模型,这类模型称为广义的线性模型(GLM)。
对数线性模型:Logictic回归的损失:
y
i
ϵ
(
−
1
,
1
)
y^i \epsilon{(-1,1)}
yiϵ(−1,1)
NLL:负对数似然
Logistic回归:沿似然函数正梯度上升;维度提升
多分类:Softmax回归
回归实践
AUC 分类器指标
Receiver Operating Characteristic(AUC)
Area Under Curve
以0.1的错误率换取0.8的正确率,ROC曲线下的面积在[0.5,1]之间,[0,0.5]之间模型没有意义,0.5说明模型是随机做的,1说明模型分类正确率100%。ROC曲线衡量了分类器的分类性能。