文本分类——决策树模型
1 决策树模型的训练
一般决策树的训练过程是先建立一棵大规模的树结构,然后再对这个树进行剪枝,知道到达合适的规模和分类效率。
剪枝是决策树不可缺少的一步,否则在一棵大规模的树上进行分类判定,很容易就会出现过适应问题,特别是分类器基于训练集的一些弱属性上做决策时,经常出现过适应问题。
1.1 分支准则
决策树的分支准则是决定当前树节点选择何种属性作为当前训练数据的分支属性。一般的,分支准则采用信息增益原则。
信息增益是衡量一个特征能给分类系统带来多少信息,带来的越多,那么这个属性就越重要。
IG(T) = H(C) – H(C|T)
其中 T为属性,C为分类类别,H为熵。 从公式可以看出因为H(C)大小时固定的,所以当信息增益越大,那么H(C|T)就越小。从这个角度来看,信息增益一个直观的的解释就是,对于属性T的引入使得整个系统不确定性减小。下面用搜狗实验室的语料举一个例子来介绍怎么计算信息增益。
从搜狗实验室中取财经文章1001篇为正例,娱乐类文章1208篇为负例,分词统计各个词的文档频次,摘抄几个如下