《推荐系统笔记（一）》线性回归方法的数学推导

最新推荐文章于 2024-02-18 23:02:05 发布

wangxinRS

最新推荐文章于 2024-02-18 23:02:05 发布

阅读量314

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_30841655/article/details/106951692

版权

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

前言

在线性回归方法的推导中，实际上有两种角度，一种是从概率，即似然函数最大角度得出；另一种则是从损失函数最小出发，同样可以得到结果。

我们将线性回归问题阐述如下：

输入：数据集 $T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$
输出： $w, b$ ；线性回归模型 $y=w\cdot x+b$

我们将从如下两个角度，推导出同样的目标函数，从而说明两种角度的等价性。

1. 似然函数最大

假设线性回归结果与实际值之间的误差 $\epsilon$ 服从参数为 $(\mu=0, \sigma^2)$ 的正态分布，即 $\epsilon=y-(w\cdot x+b)\sim \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\epsilon^2}{2\sigma^2}}$

因此，给定 $x_i$ ，结果为 $y_i$ 的概率为 $P(y_i|x_i, w, b)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(y_i-(w\cdot x_i+b)\right)^2}{2\sigma^2}}$

此时，对数似然函数为
$\begin{array}{lll} L(w, b)&=&log\Pi_{i=1}^NP(y_i|x_i, w, b)\\ &=& \sum\limits_{i=1}^NlogP(y_i|x_i, w, b)\\ &=&-\sum\limits_{i=1}^N\left(log(\sqrt{2\pi}\sigma)-log(2\sigma^2)+\left(y_i-(w\cdot x_i+b)\right)^2\right) \end{array}$

由于 $\sigma$ 与 $w, b$ 无关，因此，
$\begin{array}{lll} \max\limits_{w, b}L(w, b)&=&\max\limits_{w, b}-\sum\limits_{i=1}^N\left(log(\sqrt{2\pi}\sigma)-log(2\sigma^2)+\left(y_i-(w\cdot x_i+b)\right)^2\right)\\ &=& \min\limits_{w, b}\left(y_i-(w\cdot x_i+b)\right)^2 \end{array}$

从上面可知，当我们想要最大化似然函数的时候，实际上是最小化误差的平方项。

2. 损失函数最小

假设损失函数为平方函数，即
$L(y_i, f(x_i))=(y_i-f(x_i))^2$

自然的，给定数据集 $T$ ，损失函数为
$\min\limits_{w, b}L(w, b)=\sum\limits_{i=1}^N(y_i-(w\cdot x_i+b))^2$

显然，对比目标函数，可以见到最大化似然函数和最小化损失函数，实际上是等价的。

3. 梯度下降

综上，我们有线性回归的目标函数为
$\min\limits_{w, b}L(w, b)=\sum\limits_{i=1}^N(y_i-(w\cdot x_i+b))^2$

分别对 $w$ 和 $b$ 求导，我们有
$\frac{\partial L(w, b)}{\partial w}=-2\sum_{i=1}^N(y_i-(w\cdot x_i+b))x_i$

$\frac{\partial L(w, b)}{\partial b}=-2\sum_{i=1}^N(y_i-(w\cdot x_i+b))$

我们有三种更新 $(w, b)$ 的策略，分别是随机梯度下降、批量梯度下降和小批量梯度下降。

批量梯度下降：由于每次更新都考虑了所有样本点，所以速度慢，但容易获得最优解 $w\leftarrow w+2\sum_{i=1}^N(y_i-(w\cdot x_i+b))x_i$ $b\leftarrow b+2\sum_{i=1}^N(y_i-(w\cdot x_i+b))$
随机梯度下降：每次更新只考虑一个样本点，所以迭代速度快，但并不一定能在给定迭代次数内找到最优解 $w\leftarrow w+\alpha(y_i-(w\cdot x_i+b))x_i$ $b\leftarrow b+\alpha(y_i-(w\cdot x_i+b))$
小批量梯度下降：平衡上述两种方法的优缺点，选取其中一部分样本点更新 $w\leftarrow w+\alpha\sum_{i=k}^{l}(y_i-(w\cdot x_i+b))x_i$ $b\leftarrow b+\alpha\sum_{i=k}^l(y_i-(w\cdot x_i+b))$

wangxinRS

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《推荐系统笔记（一）》线性回归方法的数学推导

前言在线性回归方法的推导中，实际上有两种角度，一种是从概率，即似然函数最大角度得出；另一种则是从损失函数最小出发，同样可以得到结果。我们将线性回归问题阐述如下：输入：数据集 T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}输出：w,bw, bw,b；线性回归模型 y=w⋅x+by=w\cdot x+by=w⋅x+b我们
复制链接

扫一扫

专栏目录