day1 线性回归算法梳理

最新推荐文章于 2020-08-23 23:33:01 发布

欺阮怕硬

最新推荐文章于 2020-08-23 23:33:01 发布

阅读量182

点赞数

本文链接：https://blog.csdn.net/rj1094466256/article/details/88045716

版权

1.机器学习的一些概念

有监督：通过已有的训练样本去训练得到一个最优模型，再用这个最优模型去将给定数据转化为相应的输出，对输出进行简单的判断来实现分类。

无监督：输入数据没有标签，让计算机自己学习分类，找其中的共同点来进行分类。

泛化能力：顾名思义，就是学习出来的模型推广到未知数剧上得到合适输出的能力。学习的目的是学到隐含在数据背后的规律，

过拟合：模型在训练集中表现过好，但泛化能力差，在测试集中表现不佳，一般是由于将很多噪声也学习了进去。即方差过高。
解决方法：
（1）最简单的方法就是增大数据的训练量。
（2）重新做数据的预处理，因为我们学习的时候把噪声也学习了进去，而预处理可以将噪声大部分筛选掉了。
（3）采用正则化方法。一般使用L2正则。

欠拟合：模型没有很好地拟合数据
解决方法：
（1）增大数据集，增加训练轮数。
（2）添加其他特征项。
（3）减少正则化参数。

交叉验证：交叉验证的基本想法是重复地使用数据。比如你从表妹那儿学到的东西，到你表姐那测试一下对不对，在表姐那学到的，在二姐那测试一下，来来回回用不同的测试对象和训练对线做交叉比对，这样学到的规律就不会过拟合。

2.线性回归原理
利用谁统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系，使Y与X呈线性关系。

3.线性回归损失函数、代价函数、目标函数
损失函数是定义在单个样本上的，算的是一个样本的误差。
代价函数是定义在整个训练集上的，是所有样本误差的平均，是损失函数的平均
目标函数是定义为最终需要优化的函数。等于经验风险+结构风险。

4.优化方法
梯度下降法：通过一步步迭代，沿目标函数梯度的反方向逼近目标函数的最优解（当目标函数为凸函数时，才能得到全局最优）
牛顿法：常用的二阶优化方法，也是通过反复迭代，求解目标函数的最优解。但是，牛顿法每次迭代需要求解目标函数的海塞矩阵的逆矩阵，计算相对复杂。
拟牛顿法：在牛顿法的基础上通过正定矩阵近似海塞矩阵的逆矩阵或者海塞矩阵，简化了计算过程。

5.线性回归的评估指标
MSE：均方误差
在这里插入图片描述
RMSE：均方根误差

MAE：平均绝对误差
6.sklearn参数详解
alpha : float, 可选，默认 1.0。当 alpha 为 0 时算法等同于普通最小二乘法，可通过 Linear Regression 实现，因此不建议将 alpha 设为 0.
fit_intercept : boolean。
normalize : boolean, 可选, 默认 False
若 True，则先 normalize 再 regression。若 fit_intercept 为 false 则忽略此参数。当 regressors 被 normalize 的时候，需要注意超参（hyperparameters）的学习会更稳定，几乎独立于 sample。对于标准化的数据，就不会有此种情况。如果需要标准化数据，请对数据预处理。然后在学习时设置 normalize=False。
copy_X : boolean, 可选, 默认 True
若 True，则会复制 X；否则可能会被覆盖。
precompute : True | False | array-like, 默认=False
是否使用预计算的 Gram 矩阵来加速计算。如果设置为 ‘auto’ 则机器决定。Gram 矩阵也可以 pass。对于 sparse input 这个选项永远为 True。
max_iter : int, 可选
最大循环次数。
tol : float, 可选
优化容忍度 The tolerance for the optimization: 若更新后小于 tol，优化代码检查优化的 dual gap 并继续直到小于 tol 为止。
warm_start : bool, 可选
为 True 时, 重复使用上一次学习作为初始化，否则直接清除上次方案。
positive : bool, 可选
设为 True 时，强制使系数为正。
selection : str, 默认 ‘cyclic’
若设为 ‘random’, 每次循环会随机更新参数，而按照默认设置则会依次更新。设为随机通常会极大地加速交点（convergence）的产生，尤其是 tol 比 1e-4 大的情况下。
random_state : int, RandomState instance, 或者 None (默认值)
pseudo random number generator 用来产生随机 feature 进行更新时需要用的
seed。仅当 selection 为 random 时才可用。