常见算法在机器学习中的应用场景

项目做完了,统一发一下项目中的小笔记:一些常用机器学习算法的应用场景:(cover:一些前辈的资料,和自己遇到的一些想法,遇到新的再更新吧)随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。神经网络(13.2%)和boosting(~9%)表现不错。数据维度越高,随机森林就比AdaBoost强...
摘要由CSDN通过智能技术生成

项目做完了,统一发一下项目中的小笔记:

一些常用机器学习算法的应用场景:

(cover:一些前辈的资料,和自己遇到的一些想法,遇到新的再更新吧)
随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。

SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。

神经网络(13.2%)和boosting(~9%)表现不错。

数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。

数据量越大,神经网络就越强,前提是数据质量要好,样本的采样,垃圾数据的处理,才是重中之重。

EM算法用于寻找隐藏参数的最大似然估计。该算法首先在E step中计算隐藏参数的似然估计,然后再M step中进行最大化,然后进行EM step的迭代直至收敛。应用场景之一是聚类问题,但EM算法本身并不是一个聚类算法。举个例子,GMM(高斯混合模型)和Kmeans在聚类时都使用了EM算法。


KNN、朴素贝叶斯、决策树、SVM、logistic回归、adaboost用来分类。


近邻 (Nearest Neighbor)
    典型的例子是KNN,它的思路就是——对于待判断的点,找到离它最近的几个数据点,根据它们的类型决定待判断点的类型。
    它的特点是完全跟着数据走,没有数学模型可言。

    适用情景:
    需要一个特别容易解释的模型的时候。比如需要向用户解释原因的推荐算法。

贝叶斯 (Bayesian)
    典型的例子是Naive Bayes,核心思路是根据条件概率计算待判断点的类型。是相对容易理解的一个模型,至今依然被垃圾邮件过滤器使用。

    适用情景:
    需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。可以高效处理高维数据,虽然结果可能不尽如人意。


决策树 (Decision tree)
    决策树的特点是它总是在沿着特征做切分。随着层层递进,这个划分会越来越细。
    虽然生成的树不容易给用户看,但是数据分析的时候,通过观察树的上层结构,能够对分类器的核心思路有一个直观的感受。
    举个简单的例子,当我们预测一个孩子的身高的时候,决策树的第一层可能是这个孩子的性别。
    男生走左边的树进行进一步预测,女生则走右边的树。这就说明性别对身高有很强的影响。

    适用情景:
    因为它能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,数据分析师希望更好的理解手上的数据的时候往往可以使用决策树。
    同时它也是相对容易被攻击的分类器[3]。这里的攻击是指人为的改变一些特征,使得分类器判断错误。常见于垃圾邮件躲避检测中。
    因为决策树最终在底层判断是基于单个条件的,攻击者往往只需要改变很少的特征就可以逃过监测。
    受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石。
    
    决策树缺失值的处理:
            1.在选择

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值