大话数据挖掘常用算法(下)

#博学谷IT学习技术支持#      

       

五、CART(决策树)

算法思想:

CART:Classification And Regression Tree,中文叫分类回归树,即可以做分类也可以做回归。

分类树:处理离散数据,也就是数据种类有限的数据,输出的是样本的类别 。

回归树:可以对连续型的数值进行预测,输出的是一个数值,数值在某个区间内都有取值的可能。

回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。

拓展知识:

CART分类树与C4.5算法类似,只是属性选择的指标是基尼系数。

基尼系数反应了样本的不确定度,基尼系数越小,说明样本之间的差异性小,不确定程度低。

分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。

CART 回归树采用均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征。

分类:预测明天是阴、晴还是雨。

回归:预测明天的气温是多少度。

六、朴素贝叶斯(条件概率)

算法思想:

朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类。

假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)。

P(A):先验概率,即在B事件发生之前,对A事件概率的一个判断。

P(B|A):条件概率,事件 B 在另外一个事件 A 已经发生条件下的发生概率。

P(A|B):后验概率,即在B事件发生之后,对A事件概率的重新评估。

举例说明:给病人分类。

给定一个新病人,是一个打喷嚏的建筑工人,计算他患感冒的概率。

七、支持向量机 SVM

算法思想:

常见的一种分类方法,最初是为二分类问题设计的,在机器学习中,SVM 是有监督的学习模型。

找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。

硬间隔:数据是线性分布的情况,直接给出分类。

软间隔:允许一定量的样本分类错误。

核函数:非线性分布的数据映射为线性分布的数据。

举例说明:

1、分隔桌上一堆红球和篮球

用一根线将桌上的红球和蓝球分成两部分。

2、分隔箱子里一堆红球和篮球

用一个平面将箱子里的红球和蓝球分成两部分。

八、KNN(聚类)

算法思想:

机器学习算法中最基础、最简单的算法之一,既能分类也能回归,通过测量不同特征值之间的距离来进行分类。

计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别。

计算逻辑:

1、根据场景,选取距离计算方式,计算待分类物体与其他物体之间的距离。

2、统计距离最近的K个邻居。

3、对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别。

举例说明:近朱者赤,近墨者黑。

九、K-Means(聚类)

算法思想:

  1. means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心。

计算逻辑:

1、随机选取K个点为分类中心点。

2、将每个点分配到最近的类,这样形成了K个类。

3、重新计算每个类的中心点。比如都属于同一个类别里面有10个点,那么新的中心点就是这10个点的中心点,一种简单的方式就是取平均值。

Kmeans和Knn的区别

Kmeans开班选老大,风水轮流转,直到选出最佳中心老大。

Knn小弟加队伍,离那个班相对近,就是那个班的。

十、最大期望 EM(聚类)

算法思想:

EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法,也是聚类算法的一种。

举例说明:

菜称重,很少有人用称对菜进行称重,再计算一半的分量进行平分。

大部分人的方法是:

1、先分一部分到碟子 A 中,再把剩余的分到碟子 B 中。

2、观察碟子 A 和 B 里的菜是否一样多,哪个多就匀一些到少的那个碟子里。

3、然后再观察碟子 A 和 B 里的是否一样多,重复下去,直到份量不发生变化为止。

拓展知识:

EM和K-Means的区别:

EM是计算概率,KMeans是计算距离。EM属于软聚类,同一样本可能属于多个类别;而K-Means属于硬聚类,一个样本只能属于一个类别。所以前者能够发现一些隐藏的数据。先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值