记一个文本分类系统的实现

最新推荐文章于 2024-02-27 22:32:54 发布

OshynSong

最新推荐文章于 2024-02-27 22:32:54 发布

阅读量5.2k

点赞数 3

分类专栏： KDD/ML Algorithm 文章标签：文本分类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010487568/article/details/42238741

版权

本文详述了实现一个文本分类系统的过程，包括选用搜狗语料库，使用jieba进行分词，通过信息增益选取特征，采用kNN、Rocchio、NBC、SVM和ANN等算法进行分类，并基于Python CGI构建了Web应用，支持新闻URL分类。

摘要由CSDN通过智能技术生成

基于信息检索课程，完成实现了一个文本分类系统，现记录一下整个实现过程。

文本分类以文本数据为分类对象，本质上是机器学习方法在信息检索领域的一种应用，可以继承机器学习领域的很多概念和方法，但同时也需要结合信息检索领域的特点进行处理。主要研究的方向是：文本分词方法、文本特征提取方法、分类算法。

本人主要使用了5种常用的分类算法，分别是kNN、Rocchio、NBC、SVM和ANN，对每种算法的结果进行了比较，使用了十折交叉验证绘制了各自的准确率曲线。由于本系统基于的搜狗语料库，是中文文本，因此使用的分词工具是Python实现的中文分词工具jieba。使用的特征提取方法是信息增益。

1、语料

选择搜狗语料库的Reduced版本，一共有9个类别每个类别1990篇文章。考虑到实现规模，从每个类别中选择了600篇文档一共5400篇文档作为训练样本。共有9个类别，标号对应如下：（搜狗语料类别– 分类标号 – 类别名称）

C000008—— 1 —— 财经
C000010—— 2 —— IT
C000013—— 3 —— 健康
C000014—— 5 —— 体育
C000016—— 4 —— 旅游
C000020—— 6 —— 教育
C000022

最低0.47元/天解锁文章

关注

3
点赞
踩
25

收藏

觉得还不错? 一键收藏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

OshynSong CSDN认证博客专家 CSDN认证企业博客

码龄11年

157: 原创

9万+: 周排名

198万+: 总排名

47万+: 访问

: 等级

6115: 积分

130: 粉丝

86: 获赞

44: 评论

374: 收藏

私信

关注

热门文章

分类专栏

C#/C++/C/.Net 60篇
DistributedSystem 7篇
KDD/ML 11篇
Algorithm 23篇
Linux 46篇
python 7篇
PHP 16篇
web 20篇
Network 2篇
Computer 17篇
js/css/html 10篇
NoSQL 1篇

最新评论

记一个文本分类系统的实现
skysun001: 您好，可以把这个项目下载下来吗
栅栏加解密python实现（支持密钥加密）
天天卡丁: 你好，请问下你代码里的密钥是什么意思？用密钥加密的过程是怎样的？
记一个文本分类系统的实现
qq_46151109: 您好，可以给一个Github的地址吗
协程的概念总结
PerpetualLearner: 写的非常好
记一个文本分类系统的实现
Eric.Zhu: 尊敬的博主您好，我最近也在学习文本分类的知识，非常想学习您的基于python CGI的文本分类系统，能否冒昧跟您要下系统源码学习啊，非常感谢，我邮箱为pzhu@njust.edu.cn，祝好。

最新文章

目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。