一.决策树归纳
发展历程:
ID3-->C4.5-->CART
二.常用度量方法
常见的度量方法有:信息增益,增益率,基尼指数(Gini指数)
例子:
判断一个用户是否会购买电脑的数据,下面的计算都是以这里例子的数据作为计算。
属性为:age,income,student,credit_rating
label为:buys_computers(no,yes)
- 信息增益
信息熵公式定义:
其中m为分类个数,Pi为第i个类别的所有样本数量占所有样本的数量比例。这个公式衡量的是带分类样本即整个数据集D的熵。
首先,计算整个数据集的信息熵(数据集的杂乱程度)