AI十大数据挖掘算法

C4.5 data mining algorithm

C4.5以决策树的形式构造分类器。为了做到这一点,C4.5给出了一组表示已经分类的事物的数据。是数据挖掘中的一种工具,它使用一组数据表示我们要分类的东西,并试图预测新数据属于哪个类。·

案例:假设一个数据集包含一群病人。我们了解每个病人的各种情况,如年龄、脉搏、血压、最大摄氧量、家族史等。这些被称为属性。然后根据其特性把得癌症和不得癌症的进行分类;  新的病人来了就将属性输入进行分类,得到结果;

 

k-means data mining algorithm

是什么?k-means从一组对象创建k个组,以便组中的成员更加相似。它是研究数据集的一种流行的聚类分析技术。可以把向量看成是我们所知道的关于病人的数字列表。这个列表也可以解释为多维空间中的坐标。脉搏可以是一个维度,血压可以是另一个维度;

使用:只需要告诉其需要多少个簇,就可以得到相似的病人;

 

SVM data mining algorithm

是什么? 支持向量机(SVM)学习一个超平面(y= m*x + b)将数据分类为两类。在高层次上,支持向量机执行类似于C4.5的任务,只是支持向量机根本不使用决策树。

案例:如果我们有一个病人数据集,每个病人都可以通过各种测量来描述,比如脉搏、胆固醇水平、血压等等。每一个测量值都是一个维度。底线是:

 

Apriori data mining algorithm

是什么?  Apriori算法学习关联规则,并应用于包含大量事务的数据库。是一种学习数据库中变量之间关系的数据挖掘技术。这是一个无监督学习

使用场景:找到一个超时购买记录数据库中一个人的购买商品关联性,以提高产品关联购买;

 

 

EM data mining algorithm

是什么? 在数据挖掘中,期望最大化(EM)通常被用作知识发现的聚类算法(类似于k-均值)。 这是无监督学习

使用场景:测算某一得分的学生个数

案例: 我将模型视为描述如何生成观察到的数据的东西。例如,考试的成绩可以符合钟形曲线,因此假设成绩是通过钟形曲线(又称正态分布)生成的模型。用均值和方差描述这个正态分布;

 

PageRank data mining algorithm

是什么?  PageRank是一种链接分析算法,用于确定在一个对象网络中链接的某些对象的相对重要性。是无监督学习

使用场景:网络分析方法,用于探索事物之间的关联

案例:谷歌搜索引擎确定网页重要性;确定哪些网页是相关的,哪些网页是受欢迎-排名,优先级;

 

 

AdaBoost data mining algorithm

是什么?   AdaBoost是一种构造分类器的增强算法。您可能还记得,分类器获取一组数据,并尝试预测或分类新数据元素属于哪个类。属于监督学习

案例: 预测一个病人是否会得癌症

       第一步:获取第一次中预测成功率最高的学习者,其他预测失败的案例提高权重;

       第二步:循环上一步的过程;然后剩下一组加权学习者

特点:简单仅需要指定循环次数,执行快,灵活多变可以用于学习任何算法;

 

kNN data mining algorithm

是什么?    kNN,或k近邻,是一种分类算法。然而,它与前面描述的分类器不同,因为它是一个懒惰的学习者。在训练过程中除了存储训练数据外没有做什么。只有输入新的未标记的数据时,这类学习者才会进行分类,分类采用相邻最近的方式进行判断。为了得到相邻,   对于连续数据,kNN使用了类似于欧氏距离的距离度量。距离度量的选择在很大程度上取决于数据。有些人甚至建议学习基于训练数据的距离度量。还有很多关于kNN距离度量的细节和论文。    对于离散数据,其思想是将离散数据转换为连续数据。  KNN属于监督学习,因为kNN提供了一个标记的训练数据集。

使用场景:

 

Naive Bayes data mining algorithm

是什么?朴素贝叶斯不是一个单一的算法,而是一组分类算法,它们共享一个共同的假设:被分类数据的每个特征都独立于给定类的所有其他特征。

使用场景:该定理允许我们使用概率来预测给定一组特征的类。尽管朴素贝叶斯很简单,但它可以惊人地准确。例如,它被发现是有效的垃圾邮件过滤。

案例:根据长度、颜色、甜度区分(香蕉,橘子,其他)

朴素贝叶斯实现过程:
         ①计算出频率表:该水果在 长度 颜色-黄色   甜度上的概率

         ②将所有的概率相乘,

         ③在需要的时候除以分母,这个案例中忽略分母

         ④贝叶斯分类,计算出来的概率值多少为香蕉 多少为其他,多少为橘子;

 

CART data mining algorithm

是什么?CART代表分类和回归树。它是一种输出分类树或回归树的决策树学习技术。和C4.5一样,CART也是一个分类器。

使用场景?在预测场景中,与分类树预测类别不同,回归树预测数值或连续值;

案例:手机的价格、病人的住院时间

 

 

原文地址: https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值