数据挖掘——分类算法

分类算法

目录

分类算法

ID3算法

使用增益率C4.5算法

Gini指标 CART算法

CART算法(C&R算法)采用一种二分(划重点)递归分割的方法

CHAID(Chi-square Automatic Interaction Detection,卡方自动交互检测)算法

使用贝叶斯定理

支持向量机SVM

Bagging(装袋)

Boosting(提升法)

C5.0算法中引入Boosting技术以提高模型准确率。


 

ID3算法

信息熵:。

在构造决策树的过程中,熵定义为无序性度量很合适。

无序性?

举个例子,假设如下数据,需要构造决策树:

编号

性别

专业

体育选修是否报名健美操

001

信管

002

信管

003

信管

004

计算机

005

计算机

输入:性别、专业

输出:体育选修是否报名健美操

 

直觉上,哪个分类效果更好

怎么个好法?怎么度量?所以我们需要一个度量值,能满足

两个类的情况:

  1. 当一个节点上全都是yes 或全都是no,称为“最纯”,此时这个度量值为零;
  2. 当一个节点yes和no个数相同,称为“最不纯”,此时度量值是所有情况中最大的;

同样适用于多个类的情况:

找到一个属性,依据该属性划分后,

  1. 节点上数据的类值大部分都相同,称为“纯”,低无序性,此时度量值相对较低;
  2. 节点上的数据的类值均匀分布,称为“不纯”,无序性最大,此时度量值相对教高;

 

这个度量就把它定义成(信息值),单位是“位”,计算公式是:

entropy

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NoTqqa

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值