分类算法
目录
CART算法(C&R算法)采用一种二分(划重点)递归分割的方法
CHAID(Chi-square Automatic Interaction Detection,卡方自动交互检测)算法
ID3算法
信息熵:。
在构造决策树的过程中,熵定义为无序性度量很合适。
无序性?
举个例子,假设如下数据,需要构造决策树:
编号 |
性别 |
专业 |
体育选修是否报名健美操 |
001 |
男 |
信管 |
否 |
002 |
女 |
信管 |
是 |
003 |
女 |
信管 |
是 |
004 |
女 |
计算机 |
是 |
005 |
女 |
计算机 |
是 |
输入:性别、专业
输出:体育选修是否报名健美操
直觉上,哪个分类效果更好?
怎么个好法?怎么度量?所以我们需要一个度量值,能满足:
两个类的情况:
- 当一个节点上全都是yes 或全都是no,称为“最纯”,此时这个度量值为零;
- 当一个节点yes和no个数相同,称为“最不纯”,此时度量值是所有情况中最大的;
同样适用于多个类的情况:
找到一个属性,依据该属性划分后,
- 节点上数据的类值大部分都相同,称为“纯”,低无序性,此时度量值相对较低;
- 节点上的数据的类值均匀分布,称为“不纯”,无序性最大,此时度量值相对教高;
这个度量就把它定义成熵(信息值),单位是“位”,计算公式是:
entropy(