一、决策树
优点
计算复杂度不高
输出结果易于理解
对中间缺失值不敏感
可以处理不相关数据
缺点
非常容易过拟合
重点:
特征选择、决策树生成
1.特征选择
信息熵
信息增益
信息增益率
基尼指数
2.生成算法
对应ID3:没有剪枝,当某一属性样本分布过于分散,如ID,则对结果造成影响非常大。
划分标准 | 特征类型 | 特征数量 | 使用场景 | 缺失值 | |
ID3 | 信息增益 | 离散 | 多 | 分类 | 敏感 |
C4.5 | 信息增益率 | 离散或者连续 | 少 | 分类 | 可以处理 |
CART | 基尼指数 | 离散或者连续 | 较多 | 分类或者回归 | 可以处理 |
二、随机森林
是一种集成学习,通过建立几个模型的组合来解决单一预测问题。工作原理是生成多个分类器,各自独立地学习和作出预测,这些预测最后结合成单预测。随机森林是集成学习地一个子类,通过决策树的投票来决定最终分类结果
1.基础知识
应用问题:
对离散值的分类
对连续值得回归
无监督学习聚类
异常点检测
优点
准确率高
能够有效运行在大数据集上
有效处理高维样本,无需降维
有效评估各个特征在分类问题的重要性
能够获取内部误差的无偏估计
对缺省值问题能够获取很好的结果
缺点
在噪音较大的数据或者回归问题过拟合
如果取值划分较多,则属性权值是不可信的
自举汇聚法