决策树
[知道]决策树简介
决策树是什么?
决策树是一种树形结构,树种每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果
决策树的建立过程:
1.特征选择: 选取有较强分类能力的特征
2.决策树生成: 根据选择的特征生成决策树.
3.决策树也易过拟合,采用剪枝的方法缓解过拟合
ID3决策树
[理解]信息熵
ID3 树是基于信息增益构建的决策树
定义:
熵在信息论腮红代表随机变量不确定度的度量.
熵越大,数据的不确定性度越高
熵越小,数据的不确定性越低
公式
熵越大,表示整个系统不确定性越大,越随机,反之确定性越强
[理解]信息增益
定义:
由于特征A而使得对数据D的分类不确定性减少的程度
根据信息增益选择特征方式是: 对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,并选择薪资增益最大的特征进行划分.表示由于特征A而使得对数据D的分类不确定性减少的程度
[知道]ID3树构建流程
构建流程:
1.计算每个特征的信息增益
2.使用信息增益最大的特征将数据集 s 拆分子集
3.使用该特征(信息增益最大的特征)作为决策树的一个节点
4.使用剩余特征对子集重复上述(1,2,3)过程
[知道]c4.5树构建说明
ID3树的不足
偏向于选择种类多的特征作为分裂依据
信息增益率
信息增益率 = 信息增益 / 特征熵
相当于对信息增益进行修正,增加一个惩罚系数
计算方法
信息增益率的本质
特征的信息增益 ÷ 特征的存在信息
相当于对信息增益进行修正,增加一个惩罚系数
特征取值个数较多时,惩罚系数较小;特征取值个数较小时,惩罚系数较大.
惩罚系数: 数据集D特征a作为随机变量的熵倒数
信息增益率的作用
信息增益偏向于选择种类多的特征作为分裂依据
缓解ID3树中存在的不足