机器学习基础学习--决策树
简介
决策树是一种基本的分类与回归方法,它是基于树的结构进行决策的。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子)。判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支)。
决策树的学习过程
一棵决策树的生成过程主要分为以下3个部分:
- 特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法(通常信息增益,信息增益比)
- 决策树生成: 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。 树结构来说,递归结构是最容易理解的方式。
- 剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种
ID3算法的数学原理
熵:给了我们一种度量不确定性的方式,是用来衡量随机变量不确定性的,设x是一个取有限个值的离散随机变量,他的概率分布为
P(X=xi)= pi i=1 2 3 4 ….n
则随机变量的熵就定义为 :
H(X)=