上一节,介绍了R语言,和本人做文本分类时运用的几个包,还有个小例子。
这一节就用代码来简单介绍下我做文本分类的过程。
我的分类很简单,就是给你一段文字,你将它分类到特定的类别。当然,这是前提是需要大量的语料库,且已经分好类。可以理解为运用监督学习的方法吧。不过我的类别较多,不是二元分类,但是目前的分类器都是二元的,二元的可以改造成多元分类器。有One to One 和 One to the other分类。所幸,R语言里的maxent包,本身就已经帮你做好了,且它会根据类别近似度打分,你可以得到该文档在各类别下的分数,得到排名,从而得出与之相近的多个类别。无疑是非常有用的。
制作语料库
1、我的文本数据在经过一些处理后格式就是:
文本标题(Title) | 文本描述(Description) | 类别(Type) |
---|---|---|
…… | …… | A |
…… | …… | B |
…… | …… | C |
我是以词类作为特征的,暂时将标题也作为特征。所以先将标题和描述合并。
可通过如下函数:
BindData <- function(data)
{
#将标题和描述合并为一个表
temp <-