文本分类——决策树模型

最新推荐文章于 2023-12-29 01:48:14 发布

北斗之首

最新推荐文章于 2023-12-29 01:48:14 发布

阅读量5.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dreamzk/article/details/10068225

版权

本文介绍了决策树模型在文本分类中的使用，包括训练过程、分支准则、停止准则的详细解释，以及模型的代码实现和评价。通过计算信息增益选择特征，并讨论了模型的优缺点，如易于理解和调试，但易过拟合。

摘要由CSDN通过智能技术生成

文本分类——决策树模型

1 决策树模型的训练

一般决策树的训练过程是先建立一棵大规模的树结构，然后再对这个树进行剪枝，知道到达合适的规模和分类效率。

剪枝是决策树不可缺少的一步，否则在一棵大规模的树上进行分类判定，很容易就会出现过适应问题，特别是分类器基于训练集的一些弱属性上做决策时，经常出现过适应问题。

1.1 分支准则

决策树的分支准则是决定当前树节点选择何种属性作为当前训练数据的分支属性。一般的，分支准则采用信息增益原则。

信息增益是衡量一个特征能给分类系统带来多少信息，带来的越多，那么这个属性就越重要。

IG(T) = H(C) – H(C|T)

其中 T为属性，C为分类类别，H为熵。从公式可以看出因为H(C)大小时固定的，所以当信息增益越大，那么H(C|T)就越小。从这个角度来看，信息增益一个直观的的解释就是，对于属性T的引入使得整个系统不确定性减小。下面用搜狗实验室的语料举一个例子来介绍怎么计算信息增益。

从搜狗实验室中取财经文章1001篇为正例，娱乐类文章1208篇为负例，分词统计各个词的文档频次，摘抄几个如下

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。