最近在网络课上报了一门《机器学习》的课,由于数据挖掘的缘故有不少的接触,真正入门才发现坑点不少,也许总结得还不够深,后面会再慢慢补充。
一、回归树和决策树
决策树可以用来实现回归和分类,用作回归时,则称为回归树;用作决策时,则称为分类树或者决策树。
分类树的观测值是离散的,回归树的观测值必须是数值或者是连续的。
普通回归和回归树是有区别的,回归树拟合出来的曲线不平滑,即两个测试样本互相靠近,在一个小的区间内取到相同的值。普通回归却拟合出来的曲线是平滑的。
二、信息增益、信息增益率和基尼系数
ID3:信息增益是衡量该特征A使得数据集D结果不确定性的下降程度,信息增益越大越好,倾向于多值属性。
C4.5:信息增益率是衡量该特征A下信息分布的均度和广度。信息增益率倾向于少值属性而且分布不均。
CART:基尼系数是熵公式下的一阶展开,衡量的是特征A的不纯度,基尼系数越小越好,基尼的不纯度相当于熵所对应的混乱程度。
三、ID3\C4.5\CART的缺点
ID3
ID3算法使用的是自顶向下的贪婪搜索遍历可能的决策树空间构造,属于局部最优,不一定全局最优。
1、用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性,容易过拟合
2、抗噪性差
3、递归循环,消耗内存
4、只能处理离散数据
C4.5
1、递归循环,消耗内存
此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行
CART
1、不如线性回归普遍;要求大量训练数