机器学习中的线性回归

最新推荐文章于 2024-06-23 09:14:46 发布

enmengyi

最新推荐文章于 2024-06-23 09:14:46 发布

阅读量469

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u011321962/article/details/70135653

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

基本形式

给定由d个属性描述的示例 $x=(x_1;x_2;...;x_d)$ ,其中 $x_i$ 是 $x$ 在第 $i$ 个属性的取值，线性模型试图学的一个通过属性的线性组合在进行预测的函数，即

f (x) = w 1 x 1 + w 2 x 2 + . . . w d x d + b

$f(x)=w_1x_1+w_2x_2+...w_dx_d+b$ 一般用向量形式写成

f (x) = w T x + b

$f(x)=w^Tx+b$ 其中

w=(w1,w2,...,wd) w = ( w 1 , w 2 , . . . , w d ) $w=(w_1,w_2,...,w_d)$ .

w w $w$ 和

b

$b$ 学得之后，模型就确定了。

思路

给定数据集 $D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}$ , 其中 $x_i=(x_{i1};x_{i2};...,x_{id}), y_i \in \mathbb{R}$ .

试图学得

f (x i) = w T x i + b, 使 得 f (x i) ≃ y i

$f(x_i)=w^Tx_i+b,使得f(x_i)\simeq y_i$

采用均方误差（square loss）作为损失函数来衡量 $f(x)$ 与 $y$ 之间的差别。均方误差是回归任务中最常用的性能度量，具有非常好的几何意义，它对应了常用的“欧氏距离”(Euclidean distance)。基于均方误差来最小化来进行模型求解的方法称为“最小二乘法”(Least square method)。（最小二乘法用途很广，不仅限于线性回归）

最小二乘法求解过程

将和 b 吸收入向量形式, 相应的，数据集D表示为一个形状为 m∗(d+1) 的矩阵 X :
$X = (\begin{array}{cc} x_{11} & x_{12} & . . . & x_{1 d} & 1 \\ x_{21} & x_{22} & . . . & x_{2 d} & 1 \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ \\ x_{m 1} & x_{m 2} & . . . & x_{m d} & 1 \end{array}) = (\begin{array}{cc} x_{1}^{T} & 1 \\ x_{2}^{T} & 1 \\ ⋮ & ⋮ \\ x_{m}^{T} & 1 \end{array})$
再把标签也写成向量形式 y=(y1;y2;...;ym) .
- 确立损失函数 $E w^= (y - X w^) T (y - X w^) = ∥ y - X w^∥ 2$ $E_{\hat w}=(y-X\hat w)^T(y-X\hat w)=\left \| y-X \hat w \right \|^2$
- 那么我们要做的是求 $\hat w^*=\arg \underset{\hat w}{\min}E_{\hat w}=\arg \underset{\hat w}{\min}(y-X\hat w)^T(y-X\hat w)$ . 这里 $E_{\hat w}$ 是关于 $w,b$ 的凸函数，当他关于 $w$ 和 $b$ 的导数均为零时，可以得到 $w$ 和 $b$ 的最优解。
- 损失函数对 $\hat w$ 求导： $\partial E w ^ \partial w ^= 2 X T (X w^- y)$ $\frac{\partial E_{\hat w}}{\partial \hat w}=2X^T(X\hat w-y)$ .
- 令上式为零，解得 $\hat w$ 最优解的闭式解。
- 最优解的讨论：
  - 当 $X^TX$ 为满秩矩阵或正定矩阵时，可解得 $w^* = (X T X) - 1 X T y$ $\hat{w}^*=(X^TX)^{-1}X^Ty$ 其中 $(X^TX)^{-1}$ 是矩阵 $(X^TX)$ 的逆矩阵。此时，学到的线性回归模型为 $f (x^i) = x^T i (X T X) - 1 X T y$ $f(\hat x_i)=\hat x_i^T(X^TX)^{-1}X^Ty$
  - 现实任务中 $X^TX$ 往往不是满秩矩阵，比如说有些任务中，样本特征数 $d$ 大于样本数 $m$ ，导致 $X$ 的列数大于行数，此时 $X^TX$ 不满秩。此时可解出多个 $\hat w$ ，它们都能使均方误差最小化。选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化。
  - 上述最优解公式涉及到了矩阵求逆的过程，在实际问题中，如果样本矩阵 $X$ 的维度很大，那么求 $X^TX$ 的逆矩阵就会很慢。这时可以不直接求解析解，而是用梯度下降等方法来求最优解。
- 注：本文主要参考了周志华《机器学习》3.1&3.2节，以及Andrew Ng.的机器学习课程

enmengyi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的线性回归

基本形式给定由d个属性描述的示例x=(x1;x2;...;xd)x=(x_1;x_2;...;x_d),其中xix_i是xx在第ii个属性的取值，线性模型试图学的一个通过属性的线性组合在进行预测的函数，即f(x)=w1x1+w2x2+...wdxd+bf(x)=w_1x_1+w_2x_2+...w_dx_d+b 一般用向量形式写成f(x)=wTx+bf(x)=w^Tx+b 其中w=(w1,w2,..
复制链接

扫一扫

专栏目录