白话各种机器学习算法的特点及适用场景「ML」「AI核心算法」

本文详述了多种机器学习算法的特点和应用场景,包括近邻、贝叶斯、决策树、随机森林、SVM、神经网络等。随机森林在许多数据集上表现出色,而SVM具有高准确性和抗攻击性。神经网络在大数据情况下效果良好。随机森林和SVM是常用选择,而决策树和提升算法适合初学者。
摘要由CSDN通过智能技术生成

关注:决策智能与机器学习,深耕AI脱水干货

作者:xyzh  来源:知乎

原文地址:https://www.zhihu.com/question/26726794/answer/151282052

转载请联系作者

精炼的说

没有最好的分类器,只有最合适的分类器。

随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。

SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。

神经网络(13.2%)和boosting(~9%)表现不错。

数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。

数据量越大,神经网络就越强。

正好14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。

论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?

实验时间有点早,我尝试着结合我自己的理解、一些最近的实验,来谈一谈吧。主要针对分类器(Classifier)。

近邻 (Nearest Neighbor)

典型的例子是KNN,它的思路就是——对于待判断的点,找到离它最近的几个数据点,根据它们的类型决定待判断点的类型。

它的特点是完全跟着数据走,没有数学模型可言。

适用情景:

需要一个特别容易解释的模型的时候。

比如需要向用户解释原因的推荐算法。

贝叶斯 (Bayesian)

典型的例子是Naive Bayes,核心思路是根据条件概率计算待判断点的类型。

是相对容易理解的一个模型,至今依然被垃圾邮件过滤器使用。

适用情景:

需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。

可以高效处理高维数据,虽然结果可能不尽如人意。

决策树 (Decision tree)

决策树的特点是它总是在沿着特征做切分。随着层层递进,这个划分会越来越细。

虽然生成的树不容易给用户看,但是数据分析的时候,通过观察树的上层结构,能够对分类器的核心思路有一个直观的感受。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
分类:分类可以找出这些不同种类客户之间的特征,让用户了解不同行为类别客户的分布特征,从而进行商业决策和业务活动,如:在银行行业,可以通过阿里云机器学习对客户进行分类,以便进行风险评估和防控;在销售领域,可以通过对客户的细分,进行潜客挖掘、客户提升和交叉销售、客户挽留等 聚类:通常”人以群分,物以类聚”,通过对数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低,以便我们度量对象间的相似性,发现相关性。如在安全领域,通过异常点的检测,可以发现异常的安全行为。通过人与人之间的相似性,实现团伙犯罪的发掘 预测:通过对历史事件的学习来积累经验,得出事物间的相似性和关联性,从而对事物的未来状况做出预测。比如:预测销售收入和利润,预测用户下一个阶段的消费行为等 关联:分析各个物品或者商品之间同时出现的机率,典型的场景如:购物篮分析。比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题。在电商网站中,利用关联规则可以发现哪些用户更喜欢哪类的商品,当发现有类似的客户的时候,可以将其它客户购买的商品推荐给相类似的客户,以提高网站的收入。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值