算法梳理——线性回归

最新推荐文章于 2021-05-16 16:17:45 发布

hyh342284181

最新推荐文章于 2021-05-16 16:17:45 发布

阅读量491

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/hyh342284181/article/details/88055296

版权

机器学习的概念

1.有监督学习、无监督学习、泛化能力、过拟合欠拟合（方差和偏差以及各自解决办法）、交叉验证
有监督学习：训练集中的每个样本既有特征向量x，也有标签y。根据样本的y来对模型进行“监督”，调整模型的参数。监督学习对应的是分类和回归算法。
无监督学习：训练集中的每个样本只有特征向量x，没有标签y。根据样本之间的相似程度和聚集分布来对样本进行聚类。无监督学习对应的是聚类算法。
泛化能力：指算法对具有同一规律的学习集以外的数据的适用程度，对其它样本的适应能力。
过拟合：生产的拟合函数过于精确（ $h(\theta)=\theta_0+\theta_1x_1+...+\theta_6x_6$ ）
欠拟合：生成的拟合函数过于简单（ $h(\theta)=\theta_0+\theta_1x_1$ ）
当训练数据量很少时，容易发生过拟合，因为曲线会拟合这些少量数据点，而这些数据点往往不能代表数据的总体趋势，导致曲线波动大以及发生严重偏离。
解决办法：过拟合可以通过减少参数，加入正则惩罚项 L1(绝对值项) L2，变化学习率，尽可能扩大数据集选取范围等方式解决。还要注意训练模型如果出现测试精度超1000次以上都在持续下降，而训练集精度较高时，要及时停止训练。
欠拟合可以通过交叉验证，让特征较少的情况多次迭代交替使用训练集和验证集，达到优化，或跟据相关性添加其它特征项，减少正则化参数。神经网络可以加结点加层数。
白话理解就是：增加训练迭代，加数据，加节点，加层数（3层以内）
方差和偏差的概念扩展：
算法的预测误差可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise).
偏差：指偏离真实label导致的误差，反映了学习算法本身的拟合能力
方差：随机变量在其期望值附近的波动程度，即预测值在真实值附近的波动，如同样大小的训练集的变动所导致的学习性能的变化。它反映了数据扰动所造成的影响。
噪声：表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即刻画了学习问题本身的难度 . 巧妇难为无米之炊, 给一堆很差的食材, 要想做出一顿美味, 肯定是很有难度的.

交叉验证：把特征分成几部分：一些作为训练集一些做验证集，下一次交换角色，用验证集数据做训练集，训练集做验证集，交替多次充份训练验证数据。

2 线性回归的原理
建立模型，通过输入特征项加误差项，找到最合适的最好拟合结果y值的数据点。（误差项是独立并有相同分布，服从均值为0方法为θ^2的高斯分布正态分布，即符合中心极限定理。）

损失函数（Loss Function ）是定义在单个样本上的，算的是一个样本的误差。
代价函数（Cost Function ）是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。
目标函数（Object Function）定义为：最终需要优化的函数。等于经验风险+结构风险（也就是Cost Function + 正则化项）。
1）残差平方和（SSE）：真实值与预测值之差的平方和。SSE越小越好，越小说明模型拟合越好。
（2）判定系数（R2）:回归平方和占总平方和的比例，等于回归平方和（SSR）/总平方和（SST）,又等于1—SSE/SST。判定系数测度了回归直线对观测数据的拟合程度。判定系数越大，说明线性回归方程拟合的越好。
（3）均方误差(MSE)

3 sklearn参数详解（sklearn包里面线性回归的每个参数的作用）
LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)
(1)fit_intercept:是否有截据，如果没有则直线过原点。默认为True.
说明：是否对训练数据进行中心化。如果该变量为false，则表明输入的数据已经进行了中心化，在下面的过程里不进行中心化处理；否则，对输入的训练数据进行中心化处理。
(2)normalize:是否将数据归一化。

(3)copy_X:默认为True，当为True时，X会被copied,否则X将会被覆写.。（即经过中心化，标准化后，是否把新数据覆盖到原数据上）。

(4)n_jobs:默认值为1。计算时使用的核数。