学习心得——文本分类（一）

最新推荐文章于 2023-06-05 19:24:50 发布

hongliyin

最新推荐文章于 2023-06-05 19:24:50 发布

阅读量934

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hongliyin/article/details/8070492

版权

本文介绍了作者在学习文本分类过程中的心得，包括选择训练集和测试集、文本特征表达、特征减少以及分类器的选择。提到了20news_groups、人民日报语料等作为英文和中文语料来源，向量空间模型（VSM）结合TF-IDF表示文本，以及中文分词的挑战。还探讨了特征降维的必要性和两种方法，并提及了Bayes和SVM作为分类器的使用。

摘要由CSDN通过智能技术生成

在进入实验室一年之后，对一些数据挖掘的基本知识还是很模糊，不是很清楚，这个时候开始对分类进行一个系统的学习，争取能对其做到知根知底。

在上学期的016工程-舆情分析子系统开发中，第一次接触到了分类的实际应用，由于短文本的特殊性，传统的分类很难展开（都是针对的长文本，通过VSM以及TF-IDF就可以很好的表示出文本的特征了），所以使用了最原始的词匹配法。效果上通过设置词的权重，达到一定效果，不过这需要人工的去扩展词库，在适用性上过于狭窄。在以后的学习中可将“短文本分类”做为一个主攻点，这在以后的工作中肯定也是个比较经典的问题。

通过短暂的学习，对分类有了一个初步的了解。分类无非就是如下步骤：

一、选择合适的训练集和测试集：

英文的话：比较不错的是20news_groups，BNC语料。

中文的话：人民日报语料（不过由于时代性，这个语料已经不具有时效性了，急需一个适应现在这个时代的中文语料），wiki中文百科，百度百科，互动百科都是不错的语料，不过目前只有通过爬虫去爬取。

二、用数学特征来表达文本

我们得到一篇文本，全是词构成，机器语言去处理，不可能是对海量的词去做处理，所以需要一种方式来表达文本，这里我更喜欢用VSM（向量空间模型）来表达一个文本。对文本中出现的词以TF-IDF来表示，构成一个M维的特征向量。

英文的文本表达起来很简单，因为英文单词都是一个一个的。而中文文本就遇到了一个分词问题，一段文本分词的好坏对后面的分类影响是最关键的。分词

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。