多维变量线性回归

最新推荐文章于 2023-12-31 00:41:50 发布

哈哈阿航

最新推荐文章于 2023-12-31 00:41:50 发布

阅读量1.9k

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/M12_3_56_78/article/details/115028385

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

多维变量线性回归

${x^{\left( i \right)}}$ 代表第 $i$ 个训练实例，是特征矩阵中的第 $i$ 行，是一个向量。

${x}_{j}^{\left( i \right)}$ 代表特征矩阵中第 $i$ 行的第 $j$ 个特征，也就是第 $i$ 个训练实例的第 $j$ 个特征。

多变量线性回归函数

支持多变量的假设 $h$ 表示为： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$

这个公式中有 $n + 1$ 个参数和 $n$ 个变量，为了使得公式能够简化一些，引入 $x_{0}=1$ ，则公式转化为： $h_{\theta} \left( x \right)={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$

此时模型中的参数是一个 $n + 1$ 维的向量，任何一个训练实例也都是 $n + 1$ 维的向量，特征矩阵 $X$ 的维度是 $m * (n + 1)$ 。因此公式可以简化为： $h_{\theta} \left( x \right)={\theta^{T}}X$

在这里插入图片描述

多变量梯度下降

多变量回归代价函数： $J\left( {\theta_{0}},{\theta_{1}}...{\theta_{n}} \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}$

多变量线性回归的批量梯度下降算法为：

在这里插入图片描述

即：

在这里插入图片描述

求导后得到：

在这里插入图片描述

当 $n > = 1$ 时，
${{\theta }_{0}}:={{\theta }_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{0}^{(i)}$

${{\theta }_{1}}:={{\theta }_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{1}^{(i)}$

${{\theta }_{2}}:={{\theta }_{2}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{2}^{(i)}$

特征缩放

如果不进行特征缩放，则如图所示梯度下降算法需要多次迭代才可以收敛，比较复杂。

在这里插入图片描述

解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间。如图：

在这里插入图片描述

缩放原则和方法

${{-1}<{{x}_{n}<{1}}}$
${{-3}<{{x}_{n}<{3}}}$ 或者 ${{-\frac{1}{3}}<{{x}_{n}}<{\frac{1}{3}}}$ 都是可以的
最简单的方法是令： ${{x}_{n}}=\frac{{{x}_{n}}-{{\mu}_{n}}}{{{s}_{n}}}$ ，其中 ${\mu_{n}}$ 是 ${{x}_{n}}$ 的平均值， ${s_{n}}$ 是 ${{x}_{max}}-{{x}_{min}}$ 的值**

学习率

绘制迭代次数（ ${x}$ 轴）和代价函数（ ${y}$ 轴）的图表来观测算法在何时趋于收敛，如下图

在这里插入图片描述

出现下面两种情况都是因为学习率 $\alpha$ 过大，应该调低学习率。

在这里插入图片描述

总结：

梯度下降算法的每次迭代受到学习率的影响，如果学习率 $\alpha$ 过小，则达到收敛所需的迭代次数会非常多；如果学习率 $\alpha$ 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试这些学习率：
$\alpha=0.01，0.03，0.1，0.3，1，3，10$

正规方程

在数学中计算函数最小值通常先计算导数为0的点，即：
$\frac{\mathrm{d}}{\mathrm{d}{\theta}}j\left( {\theta} \right)=0$
同样，也可以通过求偏导数来找出代价函数 ${J\left( {\theta_{j}} \right)}$ 最小的参数，即：
$\frac{\partial}{\partial{\theta_{j}}}J\left( {\theta_{j}} \right)=0$
在这里插入图片描述

假设训练集特征矩阵为 $X$ （其中 ${{x}_{0}}=1$ ）并且我们的训练集结果为向量 $y$ ，则利用正规方程解出向量
$\theta ={{\left( {X^T}X \right)}^{-1}}{X^{T}}y$
在这里插入图片描述

梯度下降与正规方程比较

梯度下降	正规方程
特征数量大于一百万则必定使用梯度下降	适用于特征数量较小的（通常适用于特征数量小于10000）
多次迭代	一次算出
适用于各种模型	只适用于线性模型

正规方程的python实现：

import numpy as np
    
 def normalEqn(X, y):
    
   theta = np.linalg.inv(X.T@X)@X.T@y 
    
   return theta

正规方程中矩阵不可逆

当两个特征线性相关时，则 ${ {X^T}X}$ 不可逆
当训练样本数量小于等于特征数量时，则 ${ {X^T}X}$ 不可逆

哈哈阿航

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
多维变量线性回归

多维变量线性回归x(i){x^{\left( i \right)}}x(i)代表第 iii 个训练实例，是特征矩阵中的第iii行，是一个向量（vector）。xj(i){x}_{j}^{\left( i \right)}xj(i)代表特征矩阵中第 iii 行的第 jjj 个特征，也就是第 iii 个训练实例的第 jjj 个特征。多变量线性回归函数支持多变量的假设 hhh 表示为：hθ(x)=θ0+θ1x1+θ2x2+...+θnxnh_{\theta}\left( x \right)={\th
复制链接

扫一扫