机器学习十大经典算法入门

最新推荐文章于 2025-03-12 12:41:38 发布

pennyyangpei

最新推荐文章于 2025-03-12 12:41:38 发布

阅读量9.5w

收藏 1.4k

点赞数 143

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_42379006/article/details/80741808

版权

一，SVM（Support Vector Machine）支持向量机
a. SVM算法是介于简单算法和神经网络之间的最好的算法。
b. 只通过几个支持向量就确定了超平面，说明它不在乎细枝末节，所以不容易过拟合，但不能确保一定不会过拟合。可以处理复杂的非线性问题。
c. 高斯核函数
d. 缺点：计算量大
这里写图片描述

二，决策树（有监督算法，概率算法）
a. 只接受离散特征，属于分类决策树。
b. 条件熵的计算 H(Label |某个特征) 这个条件熵反映了在知道该特征时，标签的混乱程度，可以帮助我们选择特征，选择下一步的决策树的节点。
c. Gini和entropy的效果没有大的差别，在scikit learn中默认用Gini是因为Gini指数不需要求对数，计算量少。
d. 把熵用到了集合上，把集合看成随机变量。
e. 决策树：贪心算法，无法从全局的观点来观察决策树，从而难以调优。
f. 叶子节点上的最小样本数，太少，缺乏统计意义。从叶子节点的情况，可以看出决策树的质量，发现有问题也束手无策。
优点：可解释性强，可视化。缺点：容易过拟合（通过剪枝避免过拟合），很难调优，准确率不高
g. 二分类，正负样本数目相差是否悬殊，投票机制
h. 决策树算法可以看成是把多个逻辑回归算法集成起来。
这里写图片描述

三，随机森林（集成算法中最简单的,模型融合算法）
随机森林如何缓解决策树的过拟合问题，又能提高精度？
a. Random Forest, 本质上是多个算法平等的聚集在一起。每个单个的决策树，都是随机生成的训练集（行），随机生成的特征集（列），来进行训练而得到的。
b. 随机性的引入使得随机森林不容易陷入过拟合，具有很好的抗噪能力，有效的缓解了单棵决策树的过拟合问题。
c. 每一颗决策树训练样本是随机的有样本的放回抽样。

四，逻辑回归（线性算法）
它是广义线性模型GLM的一种，可以看成是一个最简单的神经网络，损失函数是一个对数似然函数，损失函数的值越大越好。（梯度上升法）
a. 多次训练，多次测试，目的是看逻辑回归这个算法适不适合这个应用场景。

这里写图片描述