西瓜书学习笔记（第三章）Task 02

最新推荐文章于 2024-10-27 16:50:16 发布

布k思议

最新推荐文章于 2024-10-27 16:50:16 发布

阅读量71

点赞数

分类专栏：机器学习文章标签：学习机器学习算法

本文链接：https://blog.csdn.net/m0_46311920/article/details/129046879

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第三章线性模型

基本形式： $f(\boldsymbol{x})=w_1 x_1+w_2 x_2+\ldots+w_d x_d+b=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$ ,其中 $\left(x_1 ; x_2 ; \ldots ; x_d\right)$ 为样本x在d个属性上的取值。
线性模型试图通过对样本的属性进行线性组合来获取样本的预测值。

线性回归：给定数据集 $D=\left\{\left(\boldsymbol{x}_1, y_1\right),\left(\boldsymbol{x}_2, y_2\right), \ldots,\left(\boldsymbol{x}_m, y_m\right)\right\}$ , 其中 $\boldsymbol{x}_i=\left(x_{i 1}\right.$ ; $\left.x_{i 2} ; \ldots ; x_{i d}\right), y_i \in \mathbb{R}$ . “线性回归” (linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记.

先考虑一种最简单的情形: 输入属性的数目只有一个。线性回归试图学得：
$f\left(x_i\right)=w x_i+b$ , 使得 $f\left(x_i\right) \simeq y_i$ ，我们使用均方误差作为性能度量，让均方误差最小化，即可求得最优解：
$\begin{aligned} \left(w^*, b^*\right) & =\underset{(w, b)}{\operatorname{arg} \min } \sum_{i=1}^m\left(f\left(x_i\right)-y_i\right)^2 \\ & =\underset{(w, b)}{\operatorname{arg} \min } \sum_{i=1}^m\left(y_i-w x_i-b\right)^2 . \end{aligned}$
正交回归与线性回归，对于数据集 $D=\left\{\left(\boldsymbol{x}_1, y_1\right),\left(\boldsymbol{x}_2, y_2\right), \ldots,\left(\boldsymbol{x}_m, y_m\right)\right\}$ , 如果我们找到一条直线，使得每个点到这个直线的垂直距离尽可能短，那么这是正交回归，如果使得每个点的y值距离这条直线尽可能短，那么这是线性回归。

继续上面的话题，我们得到了均方误差的公式，可以使用最小二乘法（基于均方误差最小化来进行模型求解的方法）来求解。
令 $E_{(w, b)}=\sum_{i=1}^m\left(y_i-w x_i-b\right)^2$
$\begin{aligned} & \frac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^m x_i^2-\sum_{i=1}^m\left(y_i-b\right) x_i\right), \\ & \frac{\partial E_{(w, b)}}{\partial b}=2\left(m b-\sum_{i=1}^m\left(y_i-w x_i\right)\right) \end{aligned}$
后令上式为零可得到 $w$ 和 $b$ 最优解的闭式(closed-form)解
$w=\frac{\sum_{i=1}^m y_i\left(x_i-\bar{x}\right)}{\sum_{i=1}^m x_i^2-\frac{1}{m}\left(\sum_{i=1}^m x_i\right)^2},$
$b=\frac{1}{m} \sum_{i=1}^m\left(y_i-w x_i\right),$
其中 $\bar{x}=\frac{1}{m} \sum_{i=1}^m x_i$ 为 $x$ 的均值.

若样本x具有多个属性，根据最小二乘法运用在一元线性回归上的情形, 那么对于多元线性回归来说, 我们可以类似得到
$\begin{aligned} \left(\boldsymbol{w}^*, b^*\right) & =\underset{(\boldsymbol{w}, b)}{\operatorname{argmin}} \sum_{i=1}^m\left(f\left(\boldsymbol{x}_i\right)-y_i\right)^2 \\ & =\underset{(\boldsymbol{w}, b)}{\arg \min } \sum_{i=1}^m\left(y_i-f\left(\boldsymbol{x}_i\right)\right)^2 \\ & =\underset{(\boldsymbol{w}, b)}{\arg \min } \sum_{i=1}^m\left(y_i-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i+b\right)\right)^2 \end{aligned}$
为便于讨论, 我们令 $\hat{\boldsymbol{w}}=(w ; b)=\left(w_1 ; \ldots ; w_d ; b\right) \in \mathbb{R}^{(d+1) \times 1},注意中间为;表示列向量， \hat{\boldsymbol{x}}_i=\left(x_1 ; \ldots ; x_d ; 1\right) \in \mathbb{R}^{(d+1) \times 1}$ , 那么上式可以简化为
$\begin{aligned} \hat{\boldsymbol{w}}^* & =\underset{\hat{\boldsymbol{w}}}{\arg \min } \sum_{i=1}^m\left(y_i-\hat{\boldsymbol{w}}^{\mathrm{T}} \hat{\boldsymbol{x}}_i\right)^2 \\ & =\underset{\hat{\boldsymbol{w}}}{\arg \min } \sum_{i=1}^m\left(y_i-\hat{\boldsymbol{x}}_i^{\mathrm{T}} \hat{\boldsymbol{w}}\right)^2 \end{aligned}$
$\hat{\boldsymbol{x}}_i和\hat{\boldsymbol{w}}都是列向量，所以a^{\mathrm{T}}b=b^{\mathrm{T}}a$
根据向量内积的定义可知, 上式可以写成如下向量内积的形式
$\hat{\boldsymbol{w}}^*=\underset{\hat{\boldsymbol{w}}}{\arg \min }\left[\begin{array}{lll} y_1-\hat{\boldsymbol{x}}_1^{\mathrm{T}} \hat{\boldsymbol{w}} & \cdots & y_m-\hat{\boldsymbol{x}}_m^{\mathrm{T}} \hat{\boldsymbol{w}} \end{array}\right]\left[\begin{array}{c} y_1-\hat{\boldsymbol{x}}_1^{\mathrm{T}} \hat{\boldsymbol{w}} \\ \vdots \\ y_m-\hat{\boldsymbol{x}}_m^{\mathrm{T}} \hat{\boldsymbol{w}} \end{array}\right]$
其中
$\begin{aligned} {\left[\begin{array}{c} y_1-\hat{\boldsymbol{x}}_1^{\mathrm{T}} \hat{\boldsymbol{w}} \\ \vdots \\ y_m-\hat{\boldsymbol{x}}_m^{\mathrm{T}} \hat{\boldsymbol{w}} \end{array}\right] } & =\left[\begin{array}{c} y_1 \\ \vdots \\ y_m \end{array}\right]-\left[\begin{array}{c} \hat{\boldsymbol{x}}_1^{\mathrm{T}} \hat{\boldsymbol{w}} \\ \vdots \\ \hat{\boldsymbol{x}}_m^{\mathrm{T}} \hat{\boldsymbol{w}} \end{array}\right] \\ & =\boldsymbol{y}-\left[\begin{array}{c} \hat{\boldsymbol{x}}_1^{\mathrm{T}} \\ \vdots \\ \hat{\boldsymbol{x}}_m^{\mathrm{T}} \end{array}\right] \cdot \hat{\boldsymbol{w}} \\ & =\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}} \end{aligned}$
所以
$\hat{\boldsymbol{w}}^*=\underset{\hat{\boldsymbol{w}}}{\arg \min }(y-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(y-\mathbf{X} \hat{w})$
令 $E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})$ 展开可得
$E_{\hat{\boldsymbol{w}}}=\boldsymbol{y}^{\mathrm{T}} \boldsymbol{y}-\boldsymbol{y}^{\mathrm{T}} \mathbf{X} \hat{\boldsymbol{w}}-\hat{\boldsymbol{w}}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}} \boldsymbol{y}+\hat{\boldsymbol{w}}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}} \mathbf{X} \hat{\boldsymbol{w}}$
对 $\hat{w}$ 求导可得
$\frac{\partial E_{\hat{w}}}{\partial \hat{w}}=\frac{\partial y^{\mathrm{T}} \boldsymbol{y}}{\partial \hat{w}}-\frac{\partial y^{\mathrm{T}} \mathbf{X} \hat{\boldsymbol{w}}}{\partial \hat{w}}-\frac{\partial \hat{\boldsymbol{w}}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}} \boldsymbol{y}}{\partial \hat{\boldsymbol{w}}}+\frac{\partial \hat{\boldsymbol{w}}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}} \mathbf{X} \hat{\boldsymbol{w}}}{\partial \hat{\boldsymbol{w}}}$
由矩阵微分公式 $\frac{\partial \boldsymbol{a}^{\mathrm{T}} \boldsymbol{x}}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{a}}{\partial \boldsymbol{x}}=\boldsymbol{a}, \frac{\partial \boldsymbol{x}^{\mathrm{T}} \mathbf{A} \boldsymbol{x}}{\partial \boldsymbol{x}}=\left(\mathbf{A}+\mathbf{A}^{\mathrm{T}}\right) \boldsymbol{x}$ 可得
$\begin{gathered} \frac{\partial E_{\hat{w}}}{\partial \hat{w}}=0-\mathbf{X}^{\mathrm{T}} \boldsymbol{y}-\mathbf{X}^{\mathrm{T}} \boldsymbol{y}+\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}+\mathbf{X}^{\mathrm{T}} \mathbf{X}\right) \hat{\boldsymbol{w}} \\ \frac{\partial E_{\hat{w}}}{\partial \hat{w}}=2 \mathbf{X}^{\mathrm{T}}(\mathbf{X} \hat{w}-y) \end{gathered}$
当 $\mathbf{X}^{\mathrm{T}} \mathbf{X}$ 为满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)时,
$\hat{\boldsymbol{w}}^*=\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y},$
其中 $\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1}$ 是矩阵 $\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)$ 的逆矩阵. 令 $\hat{\boldsymbol{x}}_i=\left(\boldsymbol{x}_i, 1\right)$ , 则最终学得的多元线性回归模型为
$f\left(\hat{\boldsymbol{x}}_i\right)=\hat{\boldsymbol{x}}_i^{\mathrm{T}}\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y} .$