机器学习笔记之——线性回归

最新推荐文章于 2024-03-31 23:30:16 发布

caitzh

最新推荐文章于 2024-03-31 23:30:16 发布

阅读量324

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/caitzh/article/details/88094676

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

线性回归

1. 线性回归简介

1.1 模型描述

对于有 m 个样本的数据集 D，每个样本 $\boldsymbol x=[x_1, x_2,\dots,x_d]^T$ 是一个 d 维的向量，样本 $\boldsymbol x$ 对应的真实输出是 $y$ ，线性回归的目的是学习一个关于样本属性的线性函数，使得函数的输出值尽可能地接近 $y$ 。线性函数的形式如下：
$f(\boldsymbol x)=w_1x_1+w_2x_2+\dots+w_d x_d+b$ 用向量形式表示的话， $f(\boldsymbol x)=\boldsymbol w^T\boldsymbol x+b$ 。那么如何衡量预测值与真实值之间的差距呢？线性回归使用的是均方误差，即
$\min_{\boldsymbol w,b}L=\min_{\boldsymbol w,b}\sum_{i=1}^m(f(\boldsymbol x_i)-y_i)^2 \tag{1}$ 其中 $\boldsymbol x_i$ 和 $y_i$ 分别表示第 i 个样本的特征和真实输出值。

1.2 求解方法一：矩阵运算

如果我们用矩阵 $\boldsymbol X\in R^{m\times (d+1)}$ 来表示样本矩阵，用 $\boldsymbol{\hat{w}}=(\boldsymbol w;b) \in R^{(d+1)\times 1}$ 来表示权重系数，用 $\boldsymbol y \in R^{m\times 1}$ 来表示样本真实输出值组成的向量，即
$\boldsymbol X=\begin{bmatrix} \boldsymbol x_1^T & 1 \\ \boldsymbol x_2^T & 1 \\ \dots & \dots \\ \boldsymbol x_m^T & 1 \end{bmatrix}, \quad \boldsymbol{\hat{w}}=\begin{bmatrix} w_1 \\ w_2 \\ \dots \\ w_d \\ b \end{bmatrix}=\begin{bmatrix} \boldsymbol w \\ b \end{bmatrix}, \quad \boldsymbol y=\begin{bmatrix} y_1 \\ y_2 \\ \dots \\ y_m \end{bmatrix}$ 可以看出， $\boldsymbol X \boldsymbol{\hat{w}}$ 的第 $i$ 行就是 $\boldsymbol{w}^T \boldsymbol x_i+b$ ，也就是 $f(\boldsymbol x_i)$ 。所以优化目标公式 (1) 等价于：
$\min_{\boldsymbol{\hat{w}}}\Vert \boldsymbol X \boldsymbol{\hat{w}}- \boldsymbol y \Vert_2^2$ 因为 $\boldsymbol X \boldsymbol{\hat{w}}- \boldsymbol y$ 是一个向量，所以
$L=\Vert \boldsymbol X \boldsymbol{\hat{w}}- \boldsymbol y \Vert_2^2=(\boldsymbol X \boldsymbol{\hat{w}}- \boldsymbol y)^T(\boldsymbol X \boldsymbol{\hat{w}}- \boldsymbol y)$ 对 $\boldsymbol{\hat{w}}$ 求导数，可得：
$\frac{\partial L}{\partial \boldsymbol{\hat{w}}}=2\boldsymbol X^T \boldsymbol y-2\boldsymbol X^T \boldsymbol X \boldsymbol{\hat{w}}$ 令导数为 0，可以解得：
$\boldsymbol{\hat{w}}=(\boldsymbol X^T \boldsymbol X)^{-1} \boldsymbol X^T \boldsymbol y$

1.3 求解方法二：梯度下降

使用梯度下降方法(Gradient Descent)迭代更新参数，首先计算损失函数公式（1）对参数的偏导数，如下：
$\frac{\partial L}{\partial w_j}=\sum_{i=1}^m2(f(\boldsymbol x_i)-y_i)x_{ij}$ $\frac{\partial L}{\partial b}=\sum_{i=1}^m2(f(\boldsymbol x_i)-y_i)$ 其中 $x_{ij}$ 表示第 $i$ 个样本的第 $j$ 个属性。然后设定一个学习率 $\alpha$ ，按以下公式更新参数：
$w_j = w_j-\alpha \frac{\partial L}{\partial w_j}$ $\alpha \frac{\partial L}{\partial b}$ 直到损失函数的值收敛到一个最小值。

2. 用最大似然和贝叶斯后验看线性回归

2.1 最大似然

为了书写方便，下面我们用 $\boldsymbol w$ 表示上面的 $\boldsymbol{\hat{w}}$ ，用 $\boldsymbol x_i$ 表示第 $i$ 个样本的特征拼接上常数 1 之后的 (d+1) 向量。则 $f(\boldsymbol x_i)=\boldsymbol w^T \boldsymbol x_i$ 。假设样本 $\boldsymbol x_i$ 的输出值 $y_i$ 是一个随机变量，其服从高斯分布 $N(\boldsymbol \mu, \sigma_1^2)$ ，其中 $\boldsymbol \mu=f(\boldsymbol x_i)$ ，即允许真实值 $y_i$ 在 $f(\boldsymbol x_i)$ 的小范围内波动。在给定参数 $\boldsymbol w$ 的情况下，生成 $y_i$ 的似然为：
$p(y_i|\boldsymbol w)=N(f(\boldsymbol x_i), \sigma_1^2)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(y_i-f(\boldsymbol x_i))^2}{2\pi \sigma_1}}$ 则对于整个数据集来说，似然为每个样本似然的乘积：
$\prod _{i=1}^m p(y_i|\boldsymbol w)=\prod _{i=1}^m N(f(\boldsymbol x_i), \sigma_1^2)=\prod _{i=1}^m \frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(y_i-f(\boldsymbol x_i))^2}{2\pi \sigma_1}}$ 由于连乘容易导致数据溢出，因此取一般会对似然取对数，得到
$\log \prod _{i=1}^m p(y_i|\boldsymbol w)=\sum_{i=1}^m \log p(y_i|\boldsymbol w)=\sum_{i=1}^m -(\frac{(y_i-f(\boldsymbol x_i))^2}{2\pi \sigma_1}+\frac{1}{2}\log 2\pi+\log \sigma_1)$ 因为 $2\pi, \sigma_1$ 与参数 $\boldsymbol w$ 无关，可以看作是常数从而去掉，所以最大化似然等价于最小化下列式子：
$\min_{\boldsymbol w} \sum_{i=1}^m (y_i-f(\boldsymbol x_i))^2$ 上述式子与 1.1 中的公式（1）完全一致。从上面分析，我们可以看出，最大化似然等价于最小化均方误差。

2.2 贝叶斯后验

假设参数 $\boldsymbol w$ 服从先验分布 $N(0,\sigma_2^2)$ ，即：
$p(\boldsymbol w)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-\frac{\boldsymbol w^2}{2\pi \sigma_2}}$ 给定数据集 D，则可以得到 $\boldsymbol w$ 的后验概率如下：
$p(\boldsymbol w|\boldsymbol y)=\frac{p(\boldsymbol w)p(\boldsymbol y|\boldsymbol w)}{p(\boldsymbol y)}=\frac{p(\boldsymbol w)\prod_{i=1}^m p(y_i|\boldsymbol w)}{p(\boldsymbol y)}$ 我们想找到一个 $\boldsymbol w$ 使得上述后验概率最大，由于分母 $p(\boldsymbol y)$ 与参数 $\boldsymbol w$ 的取值没有关系，因此可以去掉。再对后验概率取对数，得到：
$\log p(\boldsymbol w|\boldsymbol y)=\sum_{i=1}^m \log p(y_i|\boldsymbol w)+\log p(\boldsymbol w)$ 展开得到：
$\log p(\boldsymbol w|\boldsymbol y)=\sum_{i=1}^m -(\frac{(y_i-f(\boldsymbol x_i))^2}{2\pi \sigma_1}+\frac{1}{2}\log 2\pi+\log \sigma_1)-\frac{\boldsymbol w^2}{2\pi \sigma_2}-\frac{1}{2}\log 2\pi-\log \sigma_2$ 把和 $\boldsymbol w$ 无关的项去掉之后，最大化上面式子等价于最小化下列式子：
$\min_{\boldsymbol w} \frac{1}{2\pi \sigma_1} \sum_{i=1}^m (y_i-f(\boldsymbol x_i))^2+\frac{\boldsymbol w^2}{2\pi \sigma_2}$ 即：
$\min_{\boldsymbol w} \sum_{i=1}^m (y_i-f(\boldsymbol x_i))^2+ \lambda \Vert \boldsymbol w \Vert^2$ 其中 $\lambda=\sigma_1 / \sigma_2$ 。可以看出，最大化后验概率等价于加了正则项的线性回归。

caitzh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记之——线性回归

目录线性回归1. 线性回归简介1.1 模型描述1.2 求解方法一：矩阵运算1.3 求解方法二：梯度下降2. 用最大似然和贝叶斯后验看线性回归2.1 最大似然2.2 贝叶斯后验线性回归1. 线性回归简介1.1 模型描述对于有 m 个样本的数据集 D，每个样本 x=[x1,x2,…,xd]T\boldsymbol x=[x_1, x_2,\dots,x_d]^Tx=[x1,x2,…,xd...
复制链接

扫一扫