在进入实验室一年之后,对一些数据挖掘的基本知识还是很模糊,不是很清楚,这个时候开始对分类进行一个系统的学习,争取能对其做到知根知底。
在上学期的016工程-舆情分析子系统开发中,第一次接触到了分类的实际应用,由于短文本的特殊性,传统的分类很难展开(都是针对的长文本,通过VSM以及TF-IDF就可以很好的表示出文本的特征了),所以使用了最原始的词匹配法。效果上通过设置词的权重,达到一定效果,不过这需要人工的去扩展词库,在适用性上过于狭窄。在以后的学习中可将“短文本分类”做为一个主攻点,这在以后的工作中肯定也是个比较经典的问题。
通过短暂的学习,对分类有了一个初步的了解。分类无非就是如下步骤:
一、选择合适的训练集和测试集:
英文的话:比较不错的是20news_groups,BNC语料。
中文的话:人民日报语料(不过由于时代性,这个语料已经不具有时效性了,急需一个适应现在这个时代的中文语料),wiki中文百科,百度百科,互动百科都是不错的语料,不过目前只有通过爬虫去爬取。
二、用数学特征来表达文本
我们得到一篇文本,全是词构成,机器语言去处理,不可能是对海量的词去做处理,所以需要一种方式来表达文本,这里我更喜欢用VSM(向量空间模型)来表达一个文本。对文本中出现的词以TF-IDF来表示,构成一个M维的特征向量。
英文的文本表达起来很简单,因为英文单词都是一个一个的。而中文文本就遇到了一个分词问题,一段文本分词的好坏对后面的分类影响是最关键的。分词