前言
本文关于贷款问题以及公式均来自于李航博士的《统计学习方法》,只是在此基础上增加一点个人理解
正文
决策树
决策树实质上是以特征划分为基础,对于给定的实例 x x 来预测其结果 y y
假设对于一个贷款问题,数据如下
问题描述如下:
希望通过所给的训练数据学习一个贷款申请的决策树,用以对未来的贷款申请进行分类,即当新的客户提出贷款申请时,根据申请人的特征利用决策树决定是否批准贷款申请
我们很容易就可以画出一个复杂度比较高的决策树:
假设0和1代表不批准贷款以及批准贷款,分别以A1, A2, A3, A4表示年龄、有工作、有自己的房子和信贷情况4个特征,并以1,2,3表示年龄的值为青年、中年、老年,以1,2表示有工作和有自己的房子的值为是和否,以1,2,3表示信贷情况的值为非常好、好、和一般
通过上图的决策树,我们可以得出一下结论
P(Y=1|A2=1)=1 P ( Y = 1 | A 2 = 1 ) = 1
P(Y=0|A1=1,A2=2)=0 P ( Y = 0 | A 1 = 1 , A 2 = 2 ) = 0
P(Y=1|A1=2,A2=2,A3=1)=1 P ( Y = 1 | A 1 = 2 , A 2 = 2 , A 3 = 1 ) = 1
... . . .
这样就验证了开始说的: 决策树实质上是以特征划分为基础,对于给定的实例 x x 来预测其结果 y y
很明显通过上例可以看出所构造的决策树过于复杂,并且过于依赖训练数据,很容易造成过度拟合,首先先解决决策树过于复杂问题,再解决过度拟合问题
特征选择
不同的特征选择方法会生成不同的决策树,很明显我们需要最优的选择方法,为了最优化特征选择引入信息增益概念
熵
熵表示随机变量的不确定性的度量, X X 是一个取有限个值的离散随机变量,其概率分布为
P(X=xi)=pi, i=1,2,...n P ( X = x i ) = p i , i = 1 , 2 , . . . n
则随机变量的熵定义为
H(X)=−∑i=1npilogpi H ( X ) = − ∑ i = 1 n p i log p i
条件熵
设有随机变量 (X,Y) ( X , Y ) ,其联合概率分布为
P(X=xi,Y=yi)=pij, i=1,2,...n; j=1,2,...m P ( X = x i , Y = y i ) = p i j , i = 1 , 2 , . . . n ; j = 1 , 2 , . . . m
条件熵 H(Y|X) H ( Y | X ) 表示再已知变量 X X 的条件下随机变量 Y