机器学习算法系列（二）-- 线性回归算法

反卷三明治

已于 2023-06-04 20:04:00 修改

阅读量478

点赞数 3

分类专栏：机器学习文章标签：机器学习算法深度学习线性回归人工智能

于 2023-04-13 22:52:26 首次发布

本文链接：https://blog.csdn.net/jacompol/article/details/130127510

版权

机器学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

机器学习算法之–线性回归算法

回归是监督学习的另一个重要问题
回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系，特别是当输入变量的值发生变化时，输出变量的值随之发生的变化;
回归模型正是表示从输入变量到输出变量之间映射的函数，回归问题的学习等价于函数拟合：选择一条函数曲线，使其很好的拟合已知数据且很好的预测未知数据
回归问题分为学习和预测两个过程：
首先，给定一个训练数据集，根据其构建一个模型；
对于新的输入，预测系统根据学习的模型确定相应的输出

线性回归是使用线性方程对数据进行拟合的算法

一、算法原理

1.1、一个输入特征（单变量，x：输入，y：输出）

预测函数

$h_\theta(x)=\theta_0+\theta_1*x$
关键：选择合适的模型参数 $\theta_0,\theta_1$ ，也就是模型的求解过程。

成本函数

$J(θ)=J（\theta_0, \theta_1）= \frac{1}{2m}\sum_{i=1}^n (h(x^i)-y^i)^2$

梯度下降算法

求解 $\theta_0,\theta_1$ 的值

原理：先随机选取一组 $\theta_0,\theta_1$ ，以及参数α(学习率)作为移动的步幅，计算
$斜率:\frac{\partial J}{\partial\theta_j}\\\theta_j=\theta_j-\alpha*\frac{\partial J}{\partial\theta_j}$
就可以让 $\theta_j往J(\theta)变小的方向迈了一小步$

注意：若 $\alpha$ 太小，需要更多次数才能到达最终目的；而太大可能会导致直接跨过，导致无法收敛

故不难推导出梯度下降算法公式：
$\begin{cases} \theta_0= \theta_0-\frac{\alpha}{m}\sum_{i=1}^m (h(x^i)-y^i)\\ \\ \theta_1= \theta_1-\frac{\alpha}{m}\sum_{i=1}^m ((h(x^i)-y^i)x^i)\\ \end{cases}$
其中：
α是学习率
m是训练样本个数
$h(x^{(i)})-y(i)$ 是模型预测值和真实值之间的误差

需要注意的是:
针对 $\theta_0和\theta_1$ 分别求出了其迭代公式，在 $\theta_1$ 的迭代公式里，累加器中还需要乘以 $x_i$ 。

1.2、多变量线性回归（不止一个输入特征）

预测函数

$h_\theta(x)=\theta_0+\theta_1*x_1+\theta_2*x_2+......++\theta_n*x_n =\sum_{j=0}^n (\theta_j*x_j)$ 注：此处假设 $x_0=1$ 成为模型偏置（bias）
理论上，预测函数有无穷多个，我们求解的目标就是找出一个最优的θ值。

还可将其重写为向量形式，以简化表达：
$h(x)=\begin{bmatrix} \theta_0,...\theta_n\end{bmatrix} \begin{bmatrix} x_0\\...\\x_n\end{bmatrix}=\theta^Tx$

$h_0(X)=X·\theta$ ，其中向量形式预测样本：
$X=\begin{bmatrix} x_0^{(1)}&x_1^{(1)}&...&x_n^{(1)} \\ ...&...&...&... \\ x_0^{(m)}&x_1^{(m)}&...&x_n^{(m)} \end{bmatrix}$ 表示m个样本，n个特征

成本函数

$\frac{1}{2m}\sum_{i=1}^n (h(x^i)-y^i)^2$
其中，模型参数 $\vec{\theta}$ 为n+1维的向量， $h(x^i)-y^i$ 是预测值与实际值的差，可看到该形式与单变量线性回归算法类似。

其矩阵形式表达为
$\frac{1}{2m}(X\theta-\vec{y})^T(X\theta-\vec{y})$
其中X表示m(n+1)矩阵大小的训练样本； $\vec{y}$ 表示训练样本输出 $y^i$ 构成的向量
该公式的优势是：没有累加器，不需要循环，直接使用矩阵运算，就可以一次性计算出针对特定的参数θ下模型的拟合成本。

梯度下降算法

$\theta_j- \frac{\alpha}{m}\sum_{i=1}^n ((h(x^i)-y^i)x_j^{(i)}$
下标j是参数的序号（0~n），α为学习率。

伪代码

确定学习率α：太大会导致成本函数无法收敛，太小计算太多，效率变低
定参数起始位置：比如选取比较靠近极点的位置
计算下一组值：迭代计算公式，根据新的预测函数，带入成本函数就可以算出新的成本。
确认成本函数是否收敛：拿新的成本和旧的成本进行比较，看成本是不是变得越来越小。如果两次成本之间的差异小于误差范围，就说明已经非常接近最小成本了，就可以近似地认为找到了最小成本。
若在误差之外，则重复计算下一组值，直到找到最优解为止