简单易懂的人工智能系列：CART算法

最新推荐文章于 2020-11-23 00:45:21 发布

薛定谔的猫96

最新推荐文章于 2020-11-23 00:45:21 发布

阅读量261

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_42415326/article/details/104767146

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

C4.5算法

前面文章中讲到ID3算法有四个主要的不足，一是不能处理连续特征，第二个就是用信息增益作为标准容易偏向于取值较多的特征，最后两个是缺失值处理的问题和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。

改进1：将连续的特征离散化

比如 m 个样本的连续特征 A 有 m 个，从小到大排列为\({a_1,a_2,...,a_m}\)，则 C4.5 取相邻两样本值的平均数，一共取得m-1个划分点，其中第 i 个划分点\(T_i\) 表示为：\(T_i = \frac{a_i+a_{i+1}}{2}\)。对于这 m-1 个点，分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为\(a_t\),则小于\(a_t\)的值为类别1，大于\(a_t\)的值为类别2，这样我们就做到了连续特征的离散化。

要注意的是，与离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。

改进2：引入信息增益比

我们引入一个信息增益比的变量\(I_R(X,Y)\)，它是信息增益和特征熵的比值。表达式如下：

\(I_R(D,A) = \frac{I(A,D)}{H_A(D)}\)

其中D为样本特征输出的集合，A为样本特征，对于特征熵, 表达式如下：

\(H_A(D) = -\sum\limits_{i=1}^{n}\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}\)

其中n为特征A的类别数， \(D_i\)为特征A的第 i 个取值对应的样本个数。|D|为样本个数。

特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。

改进3：缺失值处理

主要需要解决的是两个问题：

一是在样本某些特征缺失的情况下选择划分的属性
二是选定了划分属性，对于在该属性上缺失特征的样本的处理

对于第一个子问题，比如特征A存在缺失值，C4.5的思路是将数据分成两部分，对每个样本设置一个权重（初始可以都为1），然后划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2。然后对于没有缺失特征 A 的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比，最后乘上一个系数（系数是无特征A缺失的样本加权后所占加权总样本的比例。）

对于第二个子问题，可将缺失特征的样本同时划分入所有的子节点，不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征 A 的样本 a 之前权重为1，特征 A 有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则 a 同时划分入A1，A2，A3。对应权重调节为 2/9, 3/9, 4/9。

改进4：引入正则化系数进行初步的剪枝

具体方法这里不讨论。下节讲CART的时候会详细讨论剪枝的思路

CART

薛定谔的猫96

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
简单易懂的人工智能系列：CART算法

C4.5算法前面文章中讲到ID3算法有四个主要的不足，一是不能处理连续特征，第二个就是用信息增益作为标准容易偏向于取值较多的特征，最后两个是缺失值处理的问题和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。改进1：将连续的特征离散化比如 m 个样本的连续特征 A 有 m 个，从小到大排列为\({a_1,a_2,...,a_m}\)，则 C4.5 取相邻两样本值的平均数，一共取得m-...
复制链接

扫一扫