【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集
西瓜书《机器学习》+南瓜书《机器学习公式讲解》。
task03 详读西瓜书+南瓜书ch4
决策树
基于树结构,对一系列的问题进行判断或“子决策”,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.
决策树的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。
划分选择(纯度量化表示及算法)
- 信息增益与ID3算法
信息熵越大,数据不确定性越高,数据越不纯;信息熵越小,数据不确定性越低,数据越纯。
一般而言,信息增益越大,则意味着使用属性a 来进行划分所获得的“纯度提升”越大.因此,我们可用信息增益来进行决策树的划分属性选择。 - 增益率与C4.5算法
- 基尼指数与CART算法
剪枝
不管怎样的训练集,决策树总是能很好地将各个类别分离开来。过拟合,即太依赖于训练样本,剪枝则是决策树算法对付过拟合的主要手段:
预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。
后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。
连续与缺失值
连续值处理:连续属性离散化技术,最简单的策
略是采用二分法。
缺失值处理:不完整的样本,即某些属性值缺失,避免信息浪费,需要解决两个问题:(1)如何选择划分属性。(2)给定划分属性,若某样本在该属性上缺失值,如何划分到具体的分支上。
(1)通过在样本集D中选取在属性α上没有缺失值的样本子集,计算在该样本子集上的信息增益,最终的信息增益等于该样本子集划分后信息增益乘以样本子集占样本集的比重。(2)若该样本子集在属性α上的值缺失,则将该样本以不同的权重(即每个分支所含样本比例)划入到所有分支节点中。