《机器学习》学习笔记(第3章 线性模型)
参考资料:周志华《机器学习》以及Datawhale 吃瓜教程
机器学习三要素
首先回顾一下直播课中概括的机器学习三要素:
- 模型:根据具体问题,确定假设空间
- 策略:根据评价标准,确定求解最优模型的策略(通常会产生一个“损失函数”)
- 算法:求解损失函数,确定最优模型
线性模型与回归学习
线性模型试图学得一个通过属性的线性组合进行预测的函数,其基本形式为:
f
(
x
)
=
w
T
x
+
b
f(\bold{x})=\bold{w}^{T}\bold{x}+b
f(x)=wTx+b
线性模型形式简单,具有良好的可解释性。我们通过最小化均方误差来确定参数
w
\bold{w}
w和
b
b
b:
(
w
∗
,
b
∗
)
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
f
(
x
i
)
)
2
(\bold{w}^*,b^*)=\arg\min_{(w,b)}\sum_{i=1}^m(y_i-f(\bold{x}_i))^2
(w∗,b∗)=arg(w,b)mini=1∑m(yi−f(xi))2
均方误差可以视为样本真实值与预测值的欧氏距离平方和。上述求解参数的过程称为线性回归模型的最小二乘参数估计。事实上,若我们引入误差项
ϵ
i
=
y
i
−
f
(
x
i
)
\epsilon_i=y_i-f(\bold{x_i})
ϵi=yi−f(xi),并且
ϵ
i
∼
N
(
0
,
σ
2
)
\epsilon_i\sim N(0,\sigma^2)
ϵi∼N(0,σ2),可以证明此时最小二乘估计与极大似然估计等价。
若记
w
^
=
(
w
;
b
)
\hat{\bold{w}}=(\bold{w};b)
w^=(w;b),则最优参数
w
^
∗
\hat{\bold{w}}^*
w^∗可表示为矩阵形式:
w
^
∗
=
(
X
T
X
)
−
1
X
T
y
\hat{\bold{w}}^*=(\bold{X}^\text{T}\bold{X})^{-1}\bold{X}^\text{T}y
w^∗=(XTX)−1XTy
上式成立要求
X
T
X
\bold{X}^\text{T}\bold{X}
XTX满秩。若样本数少于变量数(矩阵
X
\bold{X}
X的行数少于列数),那么
w
^
∗
\hat{\bold{w}}^*
w^∗存在多个解。此时解的选取由学习算法的归纳偏好决定,常见的做法是引入正则化项。
广义线性模型与分类学习
除了回归学习之外,线性模型还可用于分类任务。此时需用到广义线性模型,即寻找一个单调可微函数将分类任务的真实标记与线性回归模型的预测值联系起来。以二分类问题为例,我们需要找到一个Sigmoid函数(形似"S"的函数)来近似最理想的单位阶跃函数:
对数几率函数是一种常用的Sigmoid函数:
y
=
1
1
+
e
(
w
T
x
+
b
)
y=\frac{1}{1+e^{(\bold{w}^{T}\bold{x}+b)}}
y=1+e(wTx+b)1
此时,我们可以通过极大似然法来估计参数
w
\bold{w}
w和
b
b
b。由于我们无法确定封闭解,所以需要使用数值优化算法(例如梯度下降法和牛顿法)来求得最优解。
线性判别分析
除了广义线性模型外,我们还可以使用线性判别分析(LDA)来进行分类学习。
以二分类学习为例,LDA的核心思想是:给定训练样例集 D D D,设法将样例投影到一条直线 w w w上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。