前言
十分有幸可以参加Datawhale组队学习活动,希望可以与Datawhale的小伙伴们共同学习,共同进步。
一、决策树介绍
决策树是一种常见的分类模型,在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先看男方是否有房产,如果有房产再看是否有车产,如果有车产再看是否有稳定工作,最后得出是否要深入了解的判断。
由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法,使得它成为集成学习中最为广泛使用的基模型。梯度提升树(GBDT),XGBoost以及LighIGBM等集成模型都采用了决策树作为基模型,在广告计算、CTR预估、金融风控等领域大放异彩,成为当今与神经网络相提并论的复杂模型,更是数据挖掘比赛中的常客。在新的研究中,南京大学周志华老师提出一种多粒度级联森林模型,创造了一种全新的基于决策树的深度集成方法,为我们提供了决策树发展的另一种可能。
决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修建。
决策树学习
信息增益
为了便于说明,先给出熵与条件熵的定义。
在信息论与概率统计中,熵 (entropy) 是表示随机变量不确定性的度量。设
X
X
X是 一个取有限个值的离散随机变量,其概率分布为
P
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2
,
⋯
,
n
P\left(X=x_{i}\right)=p_{i}, \quad i=1,2, \cdots, n
P(X=xi)=pi,i=1,2,⋯,n
则随机变量
X
X
X的熵定义为
H
(
X
)
=
−
∑
i
=
1
n
p
i
log
p
i
H(X)=-\sum_{i=1}^{n} p_{i} \log p_{i}
H(X)=−i=1∑npilogpi
在上式中, 若
p
i
=
0
p_{i}=0
pi=0,则定义
0
log
0
=
0
0 \log 0=0
0log0=0。通常,式中的对数以2为底或以
e
\mathrm{e}
e为底 (自然对数),这时熵的单位分别称作比特(bit)或纳特(nat)。由定义可知,熵只依赖于
X
X
X的分布,而与
X
X
X的取值无关,所以也可将
X
X
X的熵记作
H
(
p
)
H(p)
H(p),即
H
(
p
)
=
−
∑
i
=
1
n
p
i
log
p
i
H(p)=-\sum_{i=1}^{n} p_{i} \log p_{i}
H(p)=−i=1∑npilogpi
嫡越大,随机变量的不确定性就越大。