第三章:线性模型(1)
3.1 线性模型的基本形式
线性模型试图通过属性的线性组合来进行预测。数学公式为:
f ( x ) = w 1 x 1 + w 2 x 2 + ⋯ + w d x d + b f(x) = w_{1}x_{1} + w_{2}x_{2} + \dots + w_{d}x_{d} + b f(x)=w1x1+w2x2+⋯+wdxd+b
其中, x = ( x 1 , x 2 , … , x d ) x = (x_{1}, x_{2}, \dots, x_{d}) x=(x1,x2,…,xd) 是输入特征向量, w = ( w 1 , w 2 , … , w d ) w = (w_{1}, w_{2}, \dots, w_{d}) w=(w1,w2,…,wd) 是权重向量, b b b 是偏置项。模型一旦确定,对于任何输入 x x x,我们可以通过计算 f ( x ) f(x) f(x) 来得到预测值。
3.2 线性回归
3.2.1 线性回归的数学描述
给定数据集 D = { ( x i , y i ) } D = \{(x_{i}, y_{i})\} D={(xi,yi)},其中 x i x_{i} xi 是输入特征向量, y i y_{i} yi 是对应的输出标记。线性回归的目标是找到最优的参数 w w w 和 b b b,使得预测值 f ( x i ) f(x_{i}) f(xi) 尽可能接近真实标记 y i y_{i} yi。通常使用均方误差(MSE)作为损失函数,即:
MSE = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 \text{MSE} = \frac{1}{m} \sum_{i=1}^{m} (f(x_{i}) - y_{i})^2 MSE=m1i=1∑m(f(xi)−yi)2
其中, m m m 是样本数量。
我们尝试将MSE最小化:
(
w
∗
,
b
∗
)
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
\begin{aligned}\left(w^{*}, b^{*}\right) & =\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\& =\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}\end{aligned}
(w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2=(w,b)argmini=1∑m(yi−wxi−b)2
3.2.2 最小二乘法
最小二乘法是通过最小化损失函数来求解 w w w 和 b b b 的方法。对于线性回归问题,我们可以通过求导数并令其为零来找到最小化均方误差的 w w w 和 b b b。我们对 w w w 和 b b b 分别求偏导数,并令它们等于零:
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) ∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \begin{array}{l}\frac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right) \\\frac{\partial E_{(w, b)}}{\partial b}=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right)\end{array} ∂w∂E(w,b)=2(w∑i=1mxi2−∑i=1m(yi−b)xi)∂b∂E(w,b)=2(mb−∑i=1m(yi−wxi))
这将给出 w w w 和 b b b 的最优解。在实际操作中,我们通常会将这些方程写成矩阵形式,以便利用矩阵运算进行快速求解。当设计矩阵 X X X 满秩或者正定的时候,最优解可以表示为:
w ∗ = ( X T X ) − 1 X T y , b ∗ = y ‾ − w ∗ T x ‾ w^{*} = (X^TX)^{-1}X^T y, \quad b^{*} = \overline{y} - w^{*T} \overline{x} w∗=(XTX)−1XTy,b∗=y−w∗Tx
其中, x ‾ \overline{x} x 是所有输入特征的均值向量, y ‾ \overline{y} y 是所有输出标记的均值。
3.2.3 多变量线性回归
当我们有多个输入特征时,线性回归模型可以表示为:
f ( x ) = w T x + b f(x) = w^T x + b f(x)=wTx+b
此时,我们需要对权重向量 w w w 和偏置项 b b b 进行估计。这可以通过最小二乘法来完成,即通过最小化均方误差来求解 w w w 和 b b b。在多变量情况下,最优解的表达式与单变量情况类似:
w ∗ = ( X T X ) − 1 X T y , b ∗ = y ‾ − w ∗ T x ‾ w^{*} = (X^TX)^{-1}X^T y, \quad b^{*} = \overline{y} - w^{*T} \overline{x} w∗=(XTX)−1XTy,b∗=y−w∗Tx