决策树
- 是贪心算法: 求局部最优解
- 既能做分类,也能做回归(CART)
ID3和C4.5只能做分类, CART算法是可以做分类,也可以做回归.
相关概念
- 树
- 信息熵:衡量系统中随机事件得不确定性得度量.信息熵越小, 不确定性越小
- 非线性有监督离散型分类模型
- 无假设
划分标准
- 决策树的一个关键问题是节点分裂特征的选择,根据不同的划分标准(criterion),提出了大量的决策树算法.
- 原则:将无序的数据变得更加有序。
信息增益(ID3)

-
ID3 算法, 通过计算信息增益来确定哪个特征消除
步骤:- 分别计算信息增益
- 比较信息增益,哪个大先选哪个进行分类
- 将剩下的重复上面步骤1)和2)
-
缺点:
- 优先对离散数据进行划分
- 存在大量对数运算
信息增益率(C4.5)
- 是针对ID3缺点1的改进
- 在计算信息增益的基础上,各自的信息增益除上各自特征本身的信息熵
基尼系数(CART)
- Classification and Regression Tree
- 针对ID3缺点2(大量对数运算)的改进:对数转平方
- 必须是二叉树
- 基尼系数越大, 系统越不确定,基尼系数越小,系统越确定.
- gini = 1 - ∑p(xi)^2
- 基尼系数 (0~1之间), 信息熵 > 0
过拟合处理
- 剪枝
- 预剪枝: 参数控制树的生长
当数据量小, 设置 max_depth
当数据量大, 设置 min_samples_split(最小样本分割数)和min_samples_leaf(最小叶子节点数), 这两个参数一般是成倍关系 - 后剪枝
- 预剪枝: 参数控制树的生长
随机森林
- 分类问题由森林中的每棵树的结果就是进行投票, 如果是回归问题, 对每棵树的结果取平均
- 森林:由树组成 (由许多的决策树组成)
- 非线性有监督离散型分类模型
- 属于集成算法中的的: Bagging (bootstrap aggregating缩写, 自主采样法)
- 集成算法:
- bagging 套袋法 代表算法是随机森林
- boosting 提升法 代表算法GBDT (Gradient Boosting Decision Tree)
- stacking 堆叠法
- 集成算法:
- 随机: 生成树的数据都是从数据集中随机选取的
- 样本随机(行)
- 特征随机(列)
- 训练后,会输出"特征重要新": rfc.feature_importances_
- 一般不会单独使用决策树, 一般会使用随机森林

被折叠的 条评论
为什么被折叠?



