文本分类专题（ultimate 版）绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释...

最新推荐文章于 2023-08-03 11:47:53 发布

weixin_33809981

最新推荐文章于 2023-08-03 11:47:53 发布

阅读量138

点赞数

文章标签：人工智能 c/c++

最终版本的文本分类代码、语料、以及中间文件都已经开源共享见： http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由于数据和程序规模比较大，就不在博客园上传了。大家可以自己注册下载。

（注：转载请注明作者和出处作者：finallyliuyu 出处：博客园）

适用人群：文本分类初学者、新手、菜鸟、业余爱好者

目的：1.将书本上关于文本分类的相关内容，如分类器、特征词选择算法等，用程序实现，让入门者对文本分类有个感性的、具体的了解，毕竟数学公式还是蛮抽象的；

2.“尽信书不如无书”，“纸上得来终觉浅，绝知此事要躬行”，借助于此平台可以对书本上的一些关于分类器、特征词选择算法的结论进行验证；

3.写给我自己，体验 “the magic of mathematics” 。

1.获取语料库

方法一：搜狗2008版语料库；处理程序见《菜鸟学习C++练笔之整理搜狗2008版语料库--获取分类语料库》

方法二：finallyliuyu在博客园空间提供的语料库参见《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二》

2. 文本分类系统设计框架图

预处理过程流程图

分类模块流程图：

3. 各部分代码讲解

预处理模块

3.1建立词典

3.2全局DF特征词选择算法

3.3局部DF特征词选择算法或者按类别DF特征词选择算法

3.4卡方特征词选择算法

3.5信息增益法以及点互信息法

3.6 VSM模型建立方法

分类模块

3.7 KNN分类算法

3.8 准确率，召回率，F值计算

4. 程序调用说明：

4.1 文本分类step by step 1

4.2 文本分类 step by step 2

5。对分类问题特征词选择算法的一点见解（重点推荐）

6。资源下载（注意右键点击下载地址用迅雷软件方可下载）：

空间提供方：博客园。再次感谢博客园团队和DUDU

实验中用到的语料库下载地址注意：语料库为MSSQL2000备份格式，如何还原请大家自己查阅相关资料，网络上有很多这方面的知识也就不赘述了。

程序资源下载地址

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。