简单易懂的人工智能系列:CART算法

C4.5算法

前面文章中讲到ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问题过拟合问题。昆兰在C4.5算法中改进了上述4个问题。

改进1:将连续的特征离散化

比如 m 个样本的连续特征 A 有 m 个,从小到大排列为\({a_1,a_2,...,a_m}\),则 C4.5 取相邻两样本值的平均数,一共取得m-1个划分点,其中第 i 个划分点\(T_i\) 表示为:\(T_i = \frac{a_i+a_{i+1}}{2}\)。对于这 m-1 个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为\(a_t\),则小于\(a_t\)的值为类别1,大于\(a_t\)的值为类别2,这样我们就做到了连续特征的离散化。

要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。

改进2:引入信息增益比

我们引入一个信息增益比的变量\(I_R(X,Y)\),它是信息增益和特征熵的比值。表达式如下:

                                                        \(I_R(D,A) = \frac{I(A,D)}{H_A(D)}\)

其中D为样本特征输出的集合,A为样本特征,对于特征熵, 表达式如下:

                                                    \(H_A(D) = -\sum\limits_{i=1}^{n}\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}\)

其中n为特征A的类别数, \(D_i\)为特征A的第 i 个取值对应的样本个数。|D|为样本个数。

特征数越多的特征对应的特征熵越大,它作为分母,可以校正信息增益容易偏向于取值较多的特征的问题。

改进3:缺失值处理

主要需要解决的是两个问题:

  • 一是在样本某些特征缺失的情况下选择划分的属性
  • 二是选定了划分属性,对于在该属性上缺失特征的样本的处理

对于第一个子问题,比如特征A存在缺失值,C4.5的思路是将数据分成两部分,对每个样本设置一个权重(初始可以都为1),然后划分数据,一部分是有特征值A的数据D1,另一部分是没有特征A的数据D2。然后对于没有缺失特征 A 的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比,最后乘上一个系数(系数是无特征A缺失的样本加权后所占加权总样本的比例。)

对于第二个子问题,可将缺失特征的样本同时划分入所有的子节点,不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征 A 的样本 a 之前权重为1,特征 A 有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则 a 同时划分入A1,A2,A3。对应权重调节为 2/9, 3/9, 4/9。

改进4:引入正则化系数进行初步的剪枝

具体方法这里不讨论。下节讲CART的时候会详细讨论剪枝的思路

CART

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

薛定谔的猫96

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值