文本分类——决策树模型

本文介绍了决策树模型在文本分类中的使用,包括训练过程、分支准则、停止准则的详细解释,以及模型的代码实现和评价。通过计算信息增益选择特征,并讨论了模型的优缺点,如易于理解和调试,但易过拟合。
摘要由CSDN通过智能技术生成

文本分类——决策树模型

 

1       决策树模型的训练

一般决策树的训练过程是先建立一棵大规模的树结构,然后再对这个树进行剪枝,知道到达合适的规模和分类效率。

剪枝是决策树不可缺少的一步,否则在一棵大规模的树上进行分类判定,很容易就会出现过适应问题,特别是分类器基于训练集的一些弱属性上做决策时,经常出现过适应问题。

1.1     分支准则

决策树的分支准则是决定当前树节点选择何种属性作为当前训练数据的分支属性。一般的,分支准则采用信息增益原则。

信息增益是衡量一个特征能给分类系统带来多少信息,带来的越多,那么这个属性就越重要。

IG(T) = H(C) – H(C|T)

其中 T为属性,C为分类类别,H为熵。 从公式可以看出因为H(C)大小时固定的,所以当信息增益越大,那么H(C|T)就越小。从这个角度来看,信息增益一个直观的的解释就是,对于属性T的引入使得整个系统不确定性减小。下面用搜狗实验室的语料举一个例子来介绍怎么计算信息增益。

         从搜狗实验室中取财经文章1001篇为正例,娱乐类文章1208篇为负例,分词统计各个词的文档频次,摘抄几个如下

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值