目录
决策树
从根节点开始一步步走到叶子节点(决策),既可以做分类也可以做回归
树的组成:
根节点:第一个选择点
非叶子节点与分支:中间过程
叶子节点:最终的决策结果
如何切分特征(选择节点)
衡量标准-熵
通俗解释就是代表物体内部的混乱程度,熵值越大越混乱。在分类任务中,分类后某一组中同一类别的物体越纯(概率越高),熵值越低,所以熵值可以作为衡量标准
计算公式(pi表示分类完这一组中某一类别i):
信息增益:表示特征X使得类Y的不确定性减少的程度(分类后的专一性,希望分类后的结果还是同类在一起)
决策树就是根据信息增益来选择节点的
例子:
选择根节点(分别计算所有特征的信息增益,然后选择信息增益最大的特征)
如果是连续值,先对数据进行由小到大排序,再对每一个数据进行切分(二分),然后计算每一次切分的信息增益,选择信息增益最大的切分(连续值离散化)
信息增益(ID3)的问题:不能解决非常稀疏的特征(假设某个特征和编号一样,每一类都是不同的,此时熵计算就为0)
信息增益率(C4.5):解决ID3问题,考虑自身熵
CART(现在常用):使用GINI系数来当做衡量标准
决策树剪枝
原因:减少决策树过拟合风险(因为决策树足够庞大理论上可以完全分得开数据)
预剪枝:边建立决策树边进行剪枝操作(更实用)
限制深度,叶子节点个数,叶子节点样本数,信息增益量等
后剪枝:当建立完决策树后来进行剪枝操作
随机森林
随机:
数据采样随机——所有树模型的数据是相同的,因此为了让结果产生多样性,从总数据中随机取部分数据
特征选择随机——从总特征中随机取部分特征
森林:很多决策树并行放在一起(理论上越多树效果越好,但实际上超过一定数量就差不多上下浮动了)
优势:
1.它能够处理很高维度(feature很多)的数据,并且不用做特征选择
2.在训练完后,它能够给出哪些feature比较重要(Feature Importance)
3.容易做成并行化方法,速度比较快
4.可以进行可视化展示,便于分析