"结巴"中文分词的R语言版本,支持最大概率法,隐式马尔科夫模型,索引模型,混合模型,共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。
1、包的下载与安装
>install.packages('jiebaRD')
2、分词
首先需要建立分词引擎
实例
下面用朱自清的《匆匆》进行全文分词,只为简单说明结巴分词的用法:
可以去网上找到相关美文《匆匆》,这里保存到桌面文件:test.txt,就可以进行分词操作了。
(1)、首先读入文件
> test<-readLines('C:\\Users\\26015\\Desktop\\test.txt')
(2)、词性标注
可以使用 <=.tagger 或者 tag 来进行分词和词性标注, 词性标注使用混合模型分词,标注采用和 ictclas 兼容的标记法。
(3)、关键词提取
关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径,使用方法与分词类似。topn参数为关键词的个数,这里只提取一个关键词:
(4)、Simhash 与海明距离
对中文文档计算出对应的simhash值。simhash是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。Simhash引擎先进行分词和关键词提取,后计算Simhash值和海明距离。
最后,推荐中科院ictclas中文分词系统、这个分词系统适用不同的编程语言,对不同的语言都提供了相应的程序接口,应该是国内做得最好的中文分词系统了。
元旦送礼:原价110元的课程,现在免费送,点击【阅读原文】记得领取优惠券,付款时即可抵扣!