一、决策树
优点
计算复杂度不高
输出结果易于理解
对中间缺失值不敏感
可以处理不相关数据
缺点
非常容易过拟合
重点:
特征选择、决策树生成
1.特征选择
信息熵
信息增益
信息增益率
基尼指数
2.生成算法
对应ID3:没有剪枝,当某一属性样本分布过于分散,如ID,则对结果造成影响非常大。
优点
计算复杂度不高
输出结果易于理解
对中间缺失值不敏感
可以处理不相关数据
缺点
非常容易过拟合
重点:
特征选择、决策树生成
信息熵
信息增益
信息增益率
基尼指数
对应ID3:没有剪枝,当某一属性样本分布过于分散,如ID,则对结果造成影响非常大。