七.线性回归原理

最新推荐文章于 2024-01-17 09:04:01 发布

stackooooover

最新推荐文章于 2024-01-17 09:04:01 发布

阅读量156

点赞数

分类专栏：机器学习理论基础

本文链接：https://blog.csdn.net/weixin_36128607/article/details/117746504

版权

机器学习理论基础专栏收录该内容

39 篇文章 8 订阅

订阅专栏

1.线性回归模型

$m$ 个样本，每个样本有 $n$ 维特征和一个标签 $y$ ,可以用数学表示如下：
$x_{1}^{1},x_{2}^{1},x_{3}^{1},...,x_{n}^{2}, y^{2} ),(x_{1}^{2},x_{2}^{2},x_{3}^{2},...,x_{n}^{2}, y^{2} ),...,(x_{1}^{m},x_{2}^{m},x_{3}^{m},...,x_{n}^{m}, y^{m} )$
上式中，上角标代表第 $i$ 个样本，下角标代表第 $i$ 个样本的第 $j$ 个维度。
对于以上样本，可以假设一个多元一次方程来表示 $y$ 和 $x$ 之间的关系：
$h_{\theta }(x) =\theta_{0}+\theta_{1}x_{1} +\theta_{2}x_{2}+\theta_{3}x_{3}+...+\theta_{n}x_{n}$
为了使表示更简洁，给每个样本添加一个 $x_{0}=1$ ,模型可以表示为下：
$h_{\theta }(x) =\sum_{i=1}^{n}\theta _{i} x_{i}$
用矩阵写出上式为：
$h_{\theta }(\mathbf{X} ) =\mathbf{X\theta }$
$其中，\mathbf{X}\in R^{m\times n},\theta\in R^{n\times 1},h_{\theta }(\mathbf{X} )\in R^{m\times 1}$ 。

2.损失函数

$h_{\theta }(\mathbf{x} )$ 是假设模型，真实模型未知。因此，引出损失函数这个概念。即损失函数是衡量假设模型和真实模型之间的距离的函数。
线性回归的损失函数为均方误差：
$J(\theta )=\frac{1}{2m} \sum_{i=1}^{m}(h_{\theta }(x^{i})-y^{i})$
上式中， $\frac{1}{2}$ 是为了简化计算添加的。
用矩阵表示线性回归的损失函数为：
$J(\mathbf{\theta } )=\frac{1}{2}(\mathbf{X\theta-Y} )^{T} (\mathbf{X\theta-Y} )$
其中， $\mathbf{X} \in R^{m\times n},\mathbf{\theta }\in R^{n\times 1} , \mathbf{Y}\in R^{m\times 1} ,J(\theta )\in R$ 。

3.参数学习方法之最小二乘法和梯度下降法

损失函数越小，说明假设模型和真实模型越接近，即假设模型越好。
所以，对于线性回归，使 $J(\theta)$ 越小的 $\theta$ ，所表示的模型 $h_{\theta }(x)$ 效果越好。即参数学习的过程为极小化损失函数 $J(\theta)$ 。常用的解法有两种：

(1)最小二乘法

当样本容量较小，并且可以求出解析解的时候，一般用最小二乘法：
$\arg\min _{\theta }J(\theta )=\frac{1}{2}(\mathbf{X\theta-Y} )^{T} (\mathbf{X\theta-Y} )$
要求 $\frac{\partial J}{\partial \theta }$ ，标量对向量求导，使用矩阵微分：
$\begin{aligned} dJ(\theta )&=tr(dJ(\theta ))=\frac{1}{2}tr[d((\mathbf{X\theta-Y} )^{T} (\mathbf{X\theta-Y} ))],标量的迹\\ &=\frac{1}{2}tr[d(\mathbf{X\theta-Y} )^{T} (\mathbf{X\theta-Y} )+(\mathbf{X\theta-Y} )^{T} d(\mathbf{X\theta-Y} )],矩阵乘法\\ &=\frac{1}{2}tr[(\mathbf{X}d\theta )^{T} (\mathbf{X\theta-Y} )]+\frac{1}{2}tr[(\mathbf{X\theta-Y} )^{T}\mathbf{X}d\theta],迹的转置\\ &=\frac{1}{2}tr[(\mathbf{X\theta-Y} )^{T}\mathbf{X}d\theta]+\frac{1}{2}tr[(\mathbf{X\theta-Y} )^{T}\mathbf{X}d\theta],迹的转置\\ &=tr[(\mathbf{X\theta-Y} )^{T}\mathbf{X}d\theta],合并同类项 \end{aligned}$
根据矩阵微分和导数的关系，可得：
$\frac{\partial J(\theta )}{\partial \theta } =((\mathbf{X\theta-Y} )^{T}\mathbf{X})^{T}= \mathbf{X}^{T}(\mathbf{X\theta-Y} )=0$
最终求得：
$\theta =(\mathbf{X^{T} X} )^{-1} \mathbf{X^{T} Y}$
也就是说，当 $\mathbf{X^{T} X}$ 的逆矩阵存在时，可以直接求出最终的参数 $\theta$ 。

(2)梯度下降法

当样本量过大或逆矩阵不存在时，一般使用梯度下降法迭代求出参数值。
由(1)可知，第 $k$ 次迭代时, $\frac{\partial J_{k} }{\partial \theta _{k} }$ 的梯度向量为：
$\frac{\partial J^{k} }{\partial \theta ^{k} } =\mathbf{X}^{T}(\mathbf{X\theta ^{k} -Y} )$
则第 $k + 1$ 次迭代值为：
$\theta ^{k+1}=\theta ^{k}-\lambda \mathbf{X}^{T}(\mathbf{X\theta ^{k} -Y} )$
其中，$\lambda $为步长，可以通过一维搜索确定。

4.线性回归流程(梯度下降法)

输入：样本集 $\mathbf{X} \in R^{m\times n}$ ,精度阈值 $\epsilon$ ，步长 $\lambda$ ，要预测的样本 $\mathbf{x}$ 。
输出：预测结果 $h(\mathbf{x})$ 。
(1)初始化迭代轮数 $k = 1$ ，参数向量 $\theta ^{1} \in R^{n\times 1}$ 。
(2)求出第 $k$ 次迭代的梯度向量:
$\frac{\partial J(\theta ^{k} )}{\partial \theta ^{k}} =\mathbf{X}^{T}(\mathbf{X\theta ^{k} -Y} )$
(3)在第 $k$ 次迭代中，如果向量 $\frac{\partial J(\theta ^{k} )}{\partial \theta ^{k}}$ 中的每个分量都小于 $\epsilon$ ,迭代停止，转(5)；否则，令：
$\theta ^{k+1}=\theta ^{k}-\lambda \mathbf{X}^{T}(\mathbf{X\theta ^{k} -Y} ),k=k+1$
(4)重复(2)、(3)直到迭代停止，得最终参数向量 $\theta ^{*}$ 。
(5)将要预测的样本 $\mathbf{x}$ 带到假设函数中可得到最终预测结果：
$h(\mathbf{x})=\mathbf{x}\theta ^{*}$