决策树模型
用来解决分类和回归问题,可以看成是一个if-then规则的集合,或者看做一个条件概率分布
优点:具有可读性,分类速度快
决策树由结点和有向边组而成,内部结点表示一个feature,叶节点表示一个class
决策树的学习
损失函数通常选择 正则化的极大似然函数i.e.结构风险最小化
包括 特征选择,决策树生成和剪枝三部分
常用的算法有ID3,C4.5,CART
特征选择
选择的准则是信息增益or信息增益比
复习一下熵的定义
熵 (entropy)是表示随机变量不确定性的度量
假设X是一个取值个数有限的离散随机变量,概率分布为
P(X=Xi)=pi,i=1,2,...,n
则随机变量X的熵为(由于熵大小只和X分布有关,有时直接记作H(p)
H(X)=−∑ni=1pilogpi
熵越大,随机变量的不确定性越大
0<=H(p)<=logn
假设X,Y 服从联合概率分布
P(X=Xi,Y=yj)=pij
条件熵定义为
H(Y|X)=∑ni