R语言文本分词之——结巴分词

"结巴"中文分词的R语言版本,支持最大概率法,隐式马尔科夫模型,索引模型,混合模型,共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。

1、包的下载与安装

>install.packages('jiebaRD')

2、分词

首先需要建立分词引擎

实例

下面用朱自清的《匆匆》进行全文分词,只为简单说明结巴分词的用法:

0?wx_fmt=png        

可以去网上找到相关美文《匆匆》,这里保存到桌面文件:test.txt,就可以进行分词操作了。

(1)、首先读入文件

> test<-readLines('C:\\Users\\26015\\Desktop\\test.txt')0?wx_fmt=png                  

(2)、词性标注

        可以使用 <=.tagger 或者 tag 来进行分词和词性标注, 词性标注使用混合模型分词,标注采用和 ictclas 兼容的标记法。

(3)、关键词提取

        关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径,使用方法与分词类似。topn参数为关键词的个数,这里只提取一个关键词:

(4)、Simhash 与海明距离

        对中文文档计算出对应的simhash值。simhash是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。Simhash引擎先进行分词和关键词提取,后计算Simhash值和海明距离。

最后,推荐中科院ictclas中文分词系统、这个分词系统适用不同的编程语言,对不同的语言都提供了相应的程序接口,应该是国内做得最好的中文分词系统了。

元旦送礼:原价110元的课程,现在免费送,点击【阅读原文】记得领取优惠券,付款时即可抵扣!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值