线性回归算法梳理

最新推荐文章于 2022-07-26 08:50:37 发布

_老周

最新推荐文章于 2022-07-26 08:50:37 发布

阅读量207

点赞数 1

分类专栏：机器学习算法梳理文章标签：机器学习线性回归

本文链接：https://blog.csdn.net/qq_34567109/article/details/90112981

版权

机器学习算法梳理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习的概念介绍

监督学习和非监督学习：机器学习算法通过学习方式分类可以分为监督学习 ，非监督学习，半监督学习，增强学习，按照学习任务分类可以分为回归，分类，聚类，通俗来讲，监督学习的训练数据含有特征和标记信息（标签），非监督学习的训练数据只含有特征，不含有标记信息（标签）。其中分类算法和回归算法属于监督学习，聚类算法属于非监督学习
泛化能力：机器学习的目的是使学习到的模型能够很好的适用于“新样本”，而不是仅仅在训练样本上工作的很好；这种学得模型适用于新样本的能力就称为泛化能力
过拟合和欠拟合：当学习器把训练样本学的“太好”了的时候，很可能已经把训练样本自身的一些特点当做了潜在样本都具有的一般性质，这样就会导致泛化性能下降，这就叫做过拟合，与之相反的就是欠拟合，这是指对训练样本的一般性质尚未学好。（例如下图----图片来自西瓜书）
交叉验证：交叉验证用于防止模型过于复杂而引起的过拟合。它的做法是先将数据集D划分为k个大小相似的互斥子集，即D = D1 ∪D2 ∪D3 ∪D4 ∪D5 ∪D6 ∪…∪Dk，Di ∩ Dj =∅。（i ≠ j），每个子集尽可能保持数据分布的一致性，然后，每次用k-1个子集作为训练集，剩下的那个子集作为测试集，这样就可以获得k组训练/测试集,从而获得k次训练，最终返回的是这k个测试集的均值。（通常k取10，也被称为“10折交叉验证10-fold cross validation”）

线性回归算法梳理

线性回归概念： 在样本数据所在的n维空间中找到一条线来描述这些数据的规律。线性回归根据样本特征值的个数分为一元线性回归也即简单线性回归和多元线性回归

样本点：（x1,y1）,（x2,y2）,（x3,y3）,（x4,y4）,…（xn,yn）
一元线性回归模型： y = ax + b

对于多元线性回归：

在这里插入图片描述
将样本点放入一个nn的矩阵，把最后一列分离出来
类比一元线性回归，多元线性回归的方程应该是：

为了让式子更好的便于计算，令X0 = 1 。则矩阵X变为：

所以，多元线性回归的方程式为：
此时，θ是一个1（n+1）的行向量。由此，多元线性回归的目的就是要训练出n+1个最合适的θ值。
在这里插入图片描述
所以，多元线性回归方程式可以简化为：

2. 线性回归的损失函数，代价函数，目标函数
1）损失函数 / 代价函数（loss function / cost function）:它计算的是一个误差。用来估量模型的预测值f `(x)与真实值f(x)的不一致程度。在多元线性回归中，该损失函数为：
在这里插入图片描述

此处省略数学求解过程，直接得出使得cost function 最小的θ的值，该解称为线性回归的正规方程解

具体数学求解过程参考此链接

2)目标函数： 它是整个过程最终需要优化的函数，由代价函数＋正则化组成。（正则化后面详细讲解）
线性回归的目标函数：在这里插入图片描述
3.优化方法(梯度下降法、牛顿法、拟牛顿法等)
梯度下降法：

梯度下降法是最早最简单，也是最为常用的最优化方法。梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。
这就是我们目标函数的图像（对于线性回归的目标函数，图像是一个碗状，也是凸函数）（2个参数，θ0和θ1），要想走到最低点，我们需要一步一步来。

(引用自https://blog.csdn.net/weixin_43172660/article/details/83309423)

接下来，我们利用梯度下降的方式来优化我们的损失函数。
在这里插入图片描述

最后结果：

（其中，当j等于0的时候，X0 = 1 前面为了方便计算，已经将令X0=1）

4.线性回归的评估指标
1）均方误差（MSE）：也就是我们线性回归的代价函数
2）均方根误差（RMSE）：对MSE进行了改进，也就是对均方误差（MSE）开根号，消除量纲带来的影响。
3）平均绝对误差
4）R方 (R square):它是最好的衡量线性回归法的指标
在这里插入图片描述
5.sklearn参数详细解释 （未完待续）

_老周

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
线性回归算法梳理

机器学习的概念介绍监督学习和非监督学习：机器学习算法通过学习方式分类可以分为监督学习，非监督学习，半监督学习，增强学习，按照学习任务分类可以分为回归，分类，聚类，通俗来讲，监督学习的训练数据含有特征和标记信息（标签），非监督学习的训练数据只含有特征，不含有标记信息（标签）。其中分类算法和回归算法属于监督学习，聚类算法属于非监督学习泛化能力：机器学习的目的是使学习到的模型能够很好的...
复制链接

扫一扫