数据挖掘——分类算法

最新推荐文章于 2023-07-03 08:09:43 发布

NoTqqa

最新推荐文章于 2023-07-03 08:09:43 发布

阅读量1.8k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/notqq555/article/details/109561240

版权

分类算法

ID3算法

使用增益率C4.5算法

Gini指标 CART算法

CART算法（C&R算法）采用一种二分（划重点）递归分割的方法

CHAID（Chi-square Automatic Interaction Detection,卡方自动交互检测）算法

C5.0算法中引入Boosting技术以提高模型准确率。

ID3算法

信息熵：。

在构造决策树的过程中，熵定义为无序性度量很合适。

无序性？

举个例子，假设如下数据，需要构造决策树：

编号	性别	专业	体育选修是否报名健美操
001	男	信管	否
002	女	信管	是
003	女	信管	是
004	女	计算机	是
005	女	计算机	是

输入：性别、专业

输出：体育选修是否报名健美操

直觉上，哪个分类效果更好？

怎么个好法？怎么度量？所以我们需要一个度量值，能满足：

两个类的情况：

当一个节点上全都是yes 或全都是no，称为“最纯”，此时这个度量值为零；
当一个节点yes和no个数相同，称为“最不纯”，此时度量值是所有情况中最大的；

同样适用于多个类的情况：

找到一个属性，依据该属性划分后，

节点上数据的类值大部分都相同，称为“纯”，低无序性，此时度量值相对较低；
节点上的数据的类值均匀分布，称为“不纯”，无序性最大，此时度量值相对教高；

这个度量就把它定义成熵（信息值），单位是“位”，计算公式是：

entropy（p1，p2，…，pn） = -p1log2p1 – p2log2p2 -…-pnlog2pn

其中，p1到pn是每种情况出现的概率

则若节点全部为yes 或者 no，验证其熵为0

：为什么第一种分类比较好？

尝试使用信息熵来度量，

步骤一：得到样本分类的熵（信息值）

I(s1,s2,……,sm)=－∑Pi log2(pi) (i=1..m)

info（1,4）=entropy（1/5，4/5）=-1/5*log2(1/5)-4/5*log2(4/5)

步骤二：得到按属性（假设为A）分类过后的平均信息值（加权平均），也就是由属性划分的样本子集的熵，定义为：

E（A）= ∑j(|s1j|+ ……+|smj|)/|s| * I(s1j， ……，smj)

最低0.47元/天解锁文章

NoTqqa

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据挖掘——分类算法

分类算法目录分类算法ID3算法使用增益率C4.5算法Gini指标 CART算法CART算法（C&R算法）采用一种二分（划重点）递归分割的方法CHAID（Chi-square Automatic Interaction Detection,卡方自动交互检测）算法使用贝叶斯定理支持向量机SVMBagging（装袋）Boosting（提升法）C5.0算法中引入Boosting技术以提高模型准确率。ID3算法信息熵：。在构造决策树的过程中，熵.
复制链接

扫一扫