初级算法梳理（一）

最新推荐文章于 2022-08-26 10:28:04 发布

就是狒狒呗

最新推荐文章于 2022-08-26 10:28:04 发布

阅读量492

点赞数

分类专栏：爬虫文章标签：机器学习初级算法线性回归

本文链接：https://blog.csdn.net/qq_33269009/article/details/88901063

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1、机器学习概念
1）有监督学习：训练数据有标记信息。分类和回归是有监督学习的代表。
2）无监督学习：训练数据无标记信息。聚类是无监督学习的代表。
3）泛化能力：学得模型适应“新样本”的能力。
4）过拟合：当学习器把训练样本学得“太好”了的时候，很可能已经把训练样本本身的一些特点当做了所有潜在样本都会具有的一般性质，这样会导致泛化性能下降，这种现象在机器学习中称为“过拟合”。
5）欠拟合：模型没有很好地捕捉到数据特征，不能够很好地拟合数据。其产生原因通常是假设函数过于简单或者使用的特征不够。其中增加特征项是欠拟合的一种解决方案。
6）方差：方差度量了同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。
7）偏差：偏差度量了学习算法的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。
8）交叉验证
在这里插入图片描述
9）其它

标记：描述训练样本的结果信息。
样例：拥有了标记信息的示例，称为“样例”。
分类：如果预测的是离散值，则称此类学习任务是“分类”。
回归：如果预测的是连续值，则称此类学习任务是“回归”。

2、线性回归原理
在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。（这反过来又应当由多个相关的因变量预测的多元线性回归区别，而不是一个单一的标量变量。）
在这里插入图片描述
3、线性回归损失函数、代价函数、目标函数

4、优化方法
1）梯度下降法：
通过一步一步迭代，边训练数据，边调整参数，计算偏导，使回归使终是保持梯度下降的，即最优，来得到最小化的损失函数和此时的模型参数值。
2）牛顿法：
在梯度下降原理基础上，优化的二阶收敛，下降过程中采用二次曲面，考虑了每走一步对当前最大角度产生的影响，梯度下降是一阶收敛，一个平面下静态的拟合局部，只考虑了本步静态的最大方向。
所以牛顿法比梯度下降法下降要快。
3）拟牛顿法：
在每一步迭代时只要求知道目标函数梯度，通过测量梯度变化构造一个目标函数的模型，使之产生超线性收敛性。不需要二阶层数信息。可以用来解决无约事，约事，和大规模的优化问题。
5、线性回归的评估指标
1）SSE(和方差)
2）MSE(均方差)
3）RMSE(均方根)
4）R-square(确定系数)
参考博文：https://blog.csdn.net/qq_21840201/article/details/80428526
6、sklearn参数详解
1）min_samples_split : int, float, optional (default=2)

最小可分样本数，即到达某节点时，确定是否需要再分下去，如果这个节点的样本数小于阈值，则停止分裂。
这个参数可以用来降低过拟合，设置较大值时，可以有效减少因某些非重要特征作为分裂点；
当这个参数设置过大时，可能会造成模型欠拟合，具体设置需要考虑样本数、样本均衡性和CV确定；

2）min_samples_leaf : int, float, optional (default=1)

最小叶节点样本数，即某叶节点的样本数过小时，应该回退到上一节点，相当于剪枝；
同样可以用来降低过拟合风险；
当样本不均衡时，尤其需要注意这个参数的设置，因为这意味着比例过小的类能否有效分出来；

3）min_weight_fraction_leaf : float, optional (default=0.)

与min_samples_leaf类似，但这里设置的不是样本数，而是整体样本的比例；

4）max_depth : integer, optional (default=3)

树的深度；
用来防止过拟合，单颗树过深可能会学到无关特征；
CV调参；

5）max_leaf_nodes : int or None, optional (default=None)

树的叶节点树；
用来防止过拟合；
如果设置该参数，则max_depth会被忽略；

6）max_features : int, float, string or None, optional (default=None)

待分裂的特征数，GBM参考了随机森林的做法，分裂时只选用了一部分特征来降低树之间的相关性；
用来降低过拟合；
一般用log，平方根的特征数目作为参数候选值；

参考链接：
https://bigquant.com/community/t/topic/128649
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html