常见算法在机器学习中的应用场景

最新推荐文章于 2023-11-10 16:10:39 发布

Platina_Tomato

最新推荐文章于 2023-11-10 16:10:39 发布

阅读量825

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42642502/article/details/102737040

版权

项目做完了，统一发一下项目中的小笔记：一些常用机器学习算法的应用场景：（cover：一些前辈的资料，和自己遇到的一些想法，遇到新的再更新吧）随机森林平均来说最强，但也只在9.9%的数据集上拿到了第一，优点是鲜有短板。SVM的平均水平紧随其后，在10.7%的数据集上拿到第一。神经网络（13.2%）和boosting（~9%）表现不错。数据维度越高，随机森林就比AdaBoost强...

摘要由CSDN通过智能技术生成

项目做完了，统一发一下项目中的小笔记：

一些常用机器学习算法的应用场景：

（cover：一些前辈的资料，和自己遇到的一些想法，遇到新的再更新吧）
随机森林平均来说最强，但也只在9.9%的数据集上拿到了第一，优点是鲜有短板。

SVM的平均水平紧随其后，在10.7%的数据集上拿到第一。

神经网络（13.2%）和boosting（~9%）表现不错。

数据维度越高，随机森林就比AdaBoost强越多，但是整体不及SVM[2]。

数据量越大，神经网络就越强，前提是数据质量要好，样本的采样，垃圾数据的处理，才是重中之重。

EM算法用于寻找隐藏参数的最大似然估计。该算法首先在E step中计算隐藏参数的似然估计，然后再M step中进行最大化，然后进行EM step的迭代直至收敛。应用场景之一是聚类问题，但EM算法本身并不是一个聚类算法。举个例子，GMM(高斯混合模型)和Kmeans在聚类时都使用了EM算法。

KNN、朴素贝叶斯、决策树、SVM、logistic回归、adaboost用来分类。

近邻 (Nearest Neighbor)
典型的例子是KNN，它的思路就是——对于待判断的点，找到离它最近的几个数据点，根据它们的类型决定待判断点的类型。
它的特点是完全跟着数据走，没有数学模型可言。

适用情景：
需要一个特别容易解释的模型的时候。比如需要向用户解释原因的推荐算法。

贝叶斯 (Bayesian)
典型的例子是Naive Bayes，核心思路是根据条件概率计算待判断点的类型。是相对容易理解的一个模型，至今依然被垃圾邮件过滤器使用。

适用情景：
需要一个比较容易解释，而且不同维度之间相关性较小的模型的时候。可以高效处理高维数据，虽然结果可能不尽如人意。

决策树 (Decision tree)
   决策树的特点是它总是在沿着特征做切分。随着层层递进，这个划分会越来越细。
   虽然生成的树不容易给用户看，但是数据分析的时候，通过观察树的上层结构，能够对分类器的核心思路有一个直观的感受。
   举个简单的例子，当我们预测一个孩子的身高的时候，决策树的第一层可能是这个孩子的性别。
   男生走左边的树进行进一步预测，女生则走右边的树。这就说明性别对身高有很强的影响。

   适用情景：
   因为它能够生成清晰的基于特征(feature)选择不同预测结果的树状结构，数据分析师希望更好的理解手上的数据的时候往往可以使用决策树。
   同时它也是相对容易被攻击的分类器[3]。这里的攻击是指人为的改变一些特征，使得分类器判断错误。常见于垃圾邮件躲避检测中。
   因为决策树最终在底层判断是基于单个条件的，攻击者往往只需要改变很少的特征就可以逃过监测。
   受限于它的简单性，决策树更大的用处是作为一些更有用的算法的基石。

   决策树缺失值的处理：
           1.在选择

最低0.47元/天解锁文章

Platina_Tomato

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
常见算法在机器学习中的应用场景

项目做完了，统一发一下项目中的小笔记：一些常用机器学习算法的应用场景：（cover：一些前辈的资料，和自己遇到的一些想法，遇到新的再更新吧）随机森林平均来说最强，但也只在9.9%的数据集上拿到了第一，优点是鲜有短板。SVM的平均水平紧随其后，在10.7%的数据集上拿到第一。神经网络（13.2%）和boosting（~9%）表现不错。数据维度越高，随机森林就比AdaBoost强...
复制链接

扫一扫

专栏目录