【Machine Learning】Ch3.2 线性回归

最新推荐文章于 2021-10-27 21:56:00 发布

pengwill97

最新推荐文章于 2021-10-27 21:56:00 发布

阅读量279

点赞数 3

本文链接：https://blog.csdn.net/pengwill97/article/details/87869821

版权

ML 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

3.2 线性回归

线性回归的目的是，给定数据集 $D=\{(x_1,y_1),(x_2,y_2)...(x_m,y_m)\}$ ，其中 $x_i=(x_{i1};x_{i2};...;x_{id})$ ， $y_i \in R$ 。线性回归试图学得一个线性模型 $f(x_i)=wx_i+b$ 使得 $f(x_i)\simeq y_i$

书中所说的序的关系，是一种可以进行量化的关系。例如将表示程度的名词，用 $[0, 1] $ 区间的实数进行量化。有些是不能量化的，如种类。书中提到的瓜的种类就是一个例子。若有几类瓜，则转换为几维向量。可以将向量的每一维看做一个布尔变量，若为1表示隶属于这种瓜。

为了求解参数 $w, b $ ，采用均方误差作为性能度量。显然均方误差越小越好，线性回归任务可以表示为

$(w^*,b^*)=arg\ min_{(w,b)}\sum_{i=1}^{m}(f(x_i)-y_i))^2=arg\ min_{(w,b)}\sum_{i=1}^{m}(y_i-wx_i-b)^2$

$arg\ min$ 表示当 $m i n$ 后面表达式中取最小值的时候，参数的取值，上式中 $w^*,b^*)=arg\ min_{(w,b)...}$ 就是表示当后面的表达式取最小值的时候，参数（变量） $w, b$ 的值作为解 $w^*,b^*$ 。

均方误差对应了欧式距离，基于均方误差最小化来进行模型求解的方法也叫作最小二乘法。如果输入 $x_i$ 只有一维，也就是一元线性回归，那么和高中的最小二乘法拟合直线方程并没有什么区别。线性回归任务，也是找到一条直线，使得样本到直线上的欧式距离之和最小。

此处假设 $x_i$ 只有一维，即一元线性回归。
令 $E_{(w,b)}=\sum_{i=1}^{m}(y_i-wx_i-b)^2$ ，求解 $w, b$ 使得 $E_{(w,b)}$ 最小化的过程，称为线性回归模型的最小二乘参数估计。将 $E_{(w,b)}$ 分别对 $w, b$ 求导。

$\frac{\partial E_{(w,b)}}{\partial w}=2(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i)$

$\frac{\partial E_{(w,b)}}{\partial b}=2(mb-\sum_{i=1}^m(y_i-wx_i))$

由于 $E_{(w,b)}$ 是凸函数，所以导数为0即可得到最优解的闭式。

$w=\frac{\sum_{i=1}^my_i(x_i-\bar{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i)^2}$

$b=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i)$

更一般的情况，样本由多个属性组成，学习目标为 $f(x_i)=w^Tx_i+b$ 使得 $f(x_i)\simeq y_i$ 。称为多元线性回归。

$w $ 是每个属性前面的权值( $d \times 1 $ 的列向量)，考虑到偏置项(常数项) $b $ ，将 $b $ 也吸入进向量形式，即 $\hat{w}=(w;b)$ ( $(d + 1) \times 1 $ 的列向量)。而 $X $ 是一个矩阵( $m \times d $ )，每一行是一条数据记录，列对应一个属性。引入偏置项后，需要在最右侧增加一列1，变成 $m \times (d + 1) $ 的矩阵。这样可以求得

$\hat{w}^*=arg\ min_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w})$

令 $E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})$ 。类似的，导数为0的时候可以求出闭解形式，首先要解决的是矩阵求导的问题，这里用两种方式求解 $E_{\hat{w}}$ 的导数。下面会涉及到一些矩阵论的内容，使用到的式也会一并给出。

方法一

用到的公式： $\frac{dAB}{dB}=A^T,\frac{dA^TB}{dA}=B,\frac{X^TAX}{dX}=2AX$

$E_{\hat{w}} \\ =(y-X\hat{w})^T(y-X\hat{w}) \\=(\hat{w}^TX^TX\hat{w}-\hat{w}^TX^TY-Y^TX\hat{x}-Y^TY)$

则

$\frac{dE_{\hat{w}}}{d\hat{w}} = \frac{d(\hat{w}^TX^TX\hat{w}-\hat{w}^TX^TY-Y^TX\hat{x}-Y^TY)}{d\hat{w}} = \frac{d\hat{w}^TX^TX\hat{w}}{d\hat{w}} - \frac{d\hat{w}^TX^TY}{d\hat{w}} - \frac{dY^TX\hat{x}}{d\hat{w}} - \frac{dY^TY}{d\hat{w}} $

根据公式 $\frac{d\hat{w}^TX^TX\hat{w}}{d\hat{w}} = 2X^TX\hat{w}, \frac{d\hat{w}^TX^TY}{d\hat{w}} = X^TY, \frac{dY^TX\hat{x}}{d\hat{w}} = X^TY, \frac{dY^TY}{d\hat{w}} = 0$

那么 $\frac{dE_{\hat{w}}}{d\hat{w}} = 2X^TX\hat{w}-2X^TY=2X^T(X\hat{w}-Y)$

方法二

用到的公式： $df=\sum_{i=1}^{n}\frac{\partial f}{\partial x_i}dx_i = \frac{\partial f^T}{\partial x}dx$

$d[(y-X\hat{w})^T(y-X\hat{w})] \\ = d(y-X\hat{w})^T(y-X\hat{w}) + (y-X\hat{w})^Td(y-X\hat{w}) \\ =\frac{\partial (y-X\hat{w})}{\partial \hat{w}}(y-X\hat{w})d\hat{w} + (y-X\hat{w})^T\frac{\partial (y-X\hat{w})^T}{\hat{w}}d\hat{w} \\=(X^TX\hat{w}-X^TY)dw + (\hat{w}^TX^TX-Y^TX)dw \\ = (X^TX\hat{w}-X^TY+\hat{w}^TX^TX-Y^TX)dw \\ = [(X^TX\hat{w} - X^TY) + (X^TX\hat{w}-X^TY)]dw \\ =2X^T(X\hat{w}-Y)dw$

令 $2X^T(X\hat{w}-Y)=0$ ，即可得出 $\hat{w}^*=(X^TX)^{-1}X^Ty$

pengwill97

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Machine Learning】Ch3.2 线性回归

3.2 线性回归线性回归的目的是，给定数据集D={(x1,y1),(x2,y2)...(xm,ym)}D=\{(x_1,y_1),(x_2,y_2)...(x_m,y_m)\}D={(x1,y1),(x2,y2)...(xm,ym)}，其中xi=(xi1;xi2;...;xid)x_i=(x_{i1};x_{i2};...;x_{id})xi=(xi1;xi2;......
复制链接

扫一扫

专栏目录