学习心得——文本分类(一)

本文介绍了作者在学习文本分类过程中的心得,包括选择训练集和测试集、文本特征表达、特征减少以及分类器的选择。提到了20news_groups、人民日报语料等作为英文和中文语料来源,向量空间模型(VSM)结合TF-IDF表示文本,以及中文分词的挑战。还探讨了特征降维的必要性和两种方法,并提及了Bayes和SVM作为分类器的使用。
摘要由CSDN通过智能技术生成

    在进入实验室一年之后,对一些数据挖掘的基本知识还是很模糊,不是很清楚,这个时候开始对分类进行一个系统的学习,争取能对其做到知根知底。

    在上学期的016工程-舆情分析子系统开发中,第一次接触到了分类的实际应用,由于短文本的特殊性,传统的分类很难展开(都是针对的长文本,通过VSM以及TF-IDF就可以很好的表示出文本的特征了),所以使用了最原始的词匹配法。效果上通过设置词的权重,达到一定效果,不过这需要人工的去扩展词库,在适用性上过于狭窄。在以后的学习中可将“短文本分类”做为一个主攻点,这在以后的工作中肯定也是个比较经典的问题。

    通过短暂的学习,对分类有了一个初步的了解。分类无非就是如下步骤:

一、选择合适的训练集和测试集:

    英文的话:比较不错的是20news_groups,BNC语料。

    中文的话:人民日报语料(不过由于时代性,这个语料已经不具有时效性了,急需一个适应现在这个时代的中文语料),wiki中文百科,百度百科,互动百科都是不错的语料,不过目前只有通过爬虫去爬取。

二、用数学特征来表达文本

     我们得到一篇文本,全是词构成,机器语言去处理,不可能是对海量的词去做处理,所以需要一种方式来表达文本,这里我更喜欢用VSM(向量空间模型)来表达一个文本。对文本中出现的词以TF-IDF来表示,构成一个M维的特征向量。

    英文的文本表达起来很简单,因为英文单词都是一个一个的。而中文文本就遇到了一个分词问题,一段文本分词的好坏对后面的分类影响是最关键的。分词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值