线性回归

最新推荐文章于 2022-11-28 20:19:40 发布

Ph03nix

最新推荐文章于 2022-11-28 20:19:40 发布

阅读量96

点赞数

分类专栏： MachineLearning

本文链接：https://blog.csdn.net/ph03nix/article/details/88155689

版权

MachineLearning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

线性回归算法是最基础的机器学习算法之一是一个监督学习算法，也就是说我们有一些样本，根据这些样本我们对之后的进行预测。我们最早接触到的线性回归应该是中学的方程。例如：

$h_x = aX+b$

线性回归中，我们说Y是预测值，X是特征，A是X特征的权重，B是一个初始的值，这是一个最基础的线性回归方程，我们可以用它来预测单一变量的问题，比如说速度与加速度的关系，房价与面积的关系。

但是在现实情况下，影响一个预测值的特征不可能仅仅只有一个，房价还可能与地段，楼层，朝向等等有关。这时候我们的特征可能会有几十个上百个甚至更多，比如在kaggle的House Prices中，给出的特征达到了80个（不包含ID），所以我们也把线性回归叫做多元线性回归。
假设我们有 $j$ 个特征， $m$ 个训练集那么这时候的预测函数就是：

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2......\theta_jx_j$

为了计算的效率我们这里利用矩阵乘法的特征，令

$\theta^ \mathrm{T}=\left[\begin{matrix}\theta_0&\theta_1&\theta_2&...&\theta_j\end{matrix}\right]$

$X^ \mathrm{T}=\left[\begin{matrix}1&x_1&x_2&...&x_j\end{matrix}\right]$

计算 $\theta^\mathrm{T}X$ ，就得到了 $h_\theta(x)$ 。这里我们默认 $\theta_0$ 的参数为1。这里我们每一个 $x$ 都是一个向量，包含着这批数据中所有数据 $x_i$ 特征的值。所以 $h_\theta(x)$ 是一个
有了预测函数，那我们需要初始化一下 $\theta$ ，作为第一次预测的参数，一般我们初始化为

$\theta^ \mathrm{T}=\left[\begin{matrix}0&0&0&...&0\end{matrix}\right]$

当然根据具体情况我们可以自己设置初始值。

那么有了初始的 $\theta$ ，我们计算当前 $\theta$ 的预测值，这时候的 $h_\theta(x)=0$ ，那我们用真实的值减去预测的 $h_\theta(x)$ ，得到当前 $\theta$ 的误差，我们将其称为代价函数（costFunction）。

作为预测，我们经可能的想要让预测值接近于我们所知道的真实值，我们要让所有 $j$ 个样本的误差接近一个最小值。所以代价函数为：

$J(\theta) =\frac{1}{2m} \sum\limits_{i=1}^{m}(h_\theta(x)-y_i)^2=\frac{1}{2m}(\theta^\mathrm{T}X-Y)^\mathrm{T}(\theta^\mathrm{T}X-Y)$

这里 $\theta^\mathrm{T}X-Y$ 得出的是一个向量，存储了每一个训练集的误差，我们下一步就要用梯度下降算法来不断地迭代，使 $J(\theta)$ 最小化。

梯度下降算法是一个很经典的算法：

$\text Repeat:$

$\theta = \theta-\alpha\frac {\partial} {\partial\theta_j}J(\theta)$

这里的 $\alpha$ 是学习速率，可以理解为你没一次修改 $\theta_i$ 的程度，太小了会使你的学习速率过慢，过大可能无法达到最小值。而且梯度下降算法容易落入局部最优解，我们可以通过随机的初始点或者方向来训练或者一些其他的方法来避免这个问题。

这里展开推导一下：

$\theta = \theta-\alpha\frac {\partial} {\partial\theta_j}J(\theta)$

$J(\theta) =\frac{1}{2m} \sum\limits_{i=1}^{m}(h_\theta(x)-y_i)^2$

$J(\theta)$ 对 $\theta_j$ 求偏导就等于

$\frac {\partial} {\partial\theta_j}J(\theta)= 2\cdot\frac{1}{2m}\cdot\sum\limits_{i=1}^{m}(h_\theta(x)-y_i)\cdot x_j=\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x)-y_i)x_j$

对于只有一个特征的 $\theta$ 所以我们可以写成：

$\theta = \theta-\alpha\frac{1}{m} \sum\limits_{i=1}^{m}(h_\theta(x)-y_i)x_i$

多个特征：

$\text Repeat:$
$\theta_j := \theta_j - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)} \;$ $\text{for j := 0...n}\newline$

我们选择好合适的学习速率，比如0.01/0.03/0.1，可以根据之前训练的结果来修改学习速率。

关于特征缩放：
一般来说把特征的大小控制在[-0.5,0.5]或者[-1,1]，一般来说用：

$x_i = \frac{x_i-\mu_i}{s_i}$

这里 $\mu_i$ 是均值， $s_i$ 是最大值与最小值的差。

关于如何判断收敛：
一般的，认为两次迭代的代价函数的差小于 $10^ {-3}$ ，就认为代价函数收敛了。

Ph03nix

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归

线性回归算法是最基础的机器学习算法之一是一个监督学习算法，也就是说我们有一些样本，根据这些样本我们对之后的进行预测。我们最早接触到的线性回归应该是中学的方程。例如：hx=aX+bh_x = aX+bhx=aX+b线性回归中，我们说Y是预测值，X是特征，A是X特征的权重，B是一个初始的值，这是一个最基础的线性回归方程，我们可以用它来预测单一变量的问题，比如说速度与加速度的关系，房价与面积的关系...
复制链接

扫一扫