一元线性回归与多元线性回归理论及公式推导

最新推荐文章于 2024-06-05 20:16:36 发布

R戎

最新推荐文章于 2024-06-05 20:16:36 发布

阅读量9.3k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/R18830287035/article/details/88384396

版权

机器学习专栏收录该内容

18 篇文章 5 订阅

订阅专栏

一元线性回归

回归分析只涉及到两个变量的，称一元回归分析。
一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量，被估计的变量，称因变量，可设为Y；估计出的变量，称自变量，设为X。回归分析就是要找出一个数学模型Y=f（x）y=ax+b

在这里插入图片描述

多元线性回归

在这里插入图片描述

在这里插入图片描述

注：为使似然函数越大，则需要最小二乘法函数越小越好

线性回归中为什么选用平方和作为误差函数？假设模型结果与测量值误差满足，均值为0的高斯分布，即正态分布。这个假设是靠谱的，符合一般客观统计规律。若使模型与测量数据最接近，那么其概率积就最大。概率积，就是概率密度函数的连续积，这样，就形成了一个最大似然函数估计。对最大似然函数估计进行推导，就得出了推导后结果：平方和最小公式

在这里插入图片描述

在这里插入图片描述
注：
1.x的平方等于x的转置乘以x。
2.机器学习中普遍认为函数属于凸函数（凸优化问题），函数图形如下，从图中可以看出函数要想取到最小值或者极小值，就需要使偏导等于0。

3.一些问题上没办法直接求解，则可以在上图中选一个点，依次一步步优化，取得最小值（梯度优化）

在这里插入图片描述

在这里插入图片描述
缺点：
SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。
解决方案：
1.动态更改学习速率a的大小，可以增大或者减小
2.随机选样本进行学习

批量梯度下降每次更新使用了所有的训练数据，最小化损失函数，如果只有一个极小值，那么批梯度下降是考虑了训练集所有数据，是朝着最小值迭代运动的，但是缺点是如果样本值很大的话，更新速度会很慢。
随机梯度下降在每次更新的时候，只考虑了一个样本点，这样会大大加快训练数据，也恰好是批梯度下降的缺点，但是有可能由于训练数据的噪声点较多，那么每一次利用噪声点进行更新的过程中，就不一定是朝着极小值方向更新，但是由于更新多轮，整体方向还是大致朝着极小值方向更新，又提高了速度。
小批量梯度下降法是为了解决批梯度下降法的训练速度慢，以及随机梯度下降法的准确性综合而来，但是这里注意，不同问题的batch是不一样的，nlp的parser训练部分batch一般就设置为10000，那么为什么是10000呢，我觉得这就和每一个问题中神经网络需要设置多少层，没有一个人能够准确答出，只能通过实验结果来进行超参数的调整。

注：批量梯度下降法BGD；
　　随机梯度下降法SGD；
　　小批量梯度下降法MBGD（在上述的批量梯度的方式中每次迭代都要使用到所有的样本，对于数据量特别大的情况，如大规模的机器学习应用，每次迭代求解所有样本需要花费大量的计算成本。是否可以在每次的迭代过程中利用部分样本代替所有的样本呢？基于这样的思想，便出现了mini-batch的概念。假设训练集中的样本的个数为1000，则每个mini-batch只是其一个子集，假设，每个mini-batch中含有10个样本，这样，整个训练数据集可以分为100个mini-batch。）

R戎

关注

1
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
一元线性回归与多元线性回归理论及公式推导

一元线性回归回归分析只涉及到两个变量的，称一元回归分析。一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量，被估计的变量，称因变量，可设为Y；估计出的变量，称自变量，设为X。回归分析就是要找出一个数学模型Y=f（x）y=ax+b多元线性回归注：为使似然函数越大，则需要最小二乘法函数越小越好线性回归中为什么选用平方和作为误差函数？假设模型结果与测...
复制链接

扫一扫

专栏目录