R语言文本分词之——结巴分词

最新推荐文章于 2022-04-28 18:55:07 发布

大数据技术派

最新推荐文章于 2022-04-28 18:55:07 发布

阅读量2.9k

点赞数 1

分类专栏： R

原文链接：http://study.163.com/course/courseMain.htm?courseId=1004331028

版权

R 专栏收录该内容

26 篇文章 3 订阅

订阅专栏

"结巴"中文分词的R语言版本，支持最大概率法，隐式马尔科夫模型，索引模型，混合模型，共四种分词模式，同时有词性标注，关键词提取，文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。

1、包的下载与安装

>install.packages('jiebaRD')

2、分词

首先需要建立分词引擎

实例

下面用朱自清的《匆匆》进行全文分词，只为简单说明结巴分词的用法：

0?wx_fmt=png

可以去网上找到相关美文《匆匆》，这里保存到桌面文件：test.txt，就可以进行分词操作了。

(1)、首先读入文件

> test<-readLines('C:\\Users\\26015\\Desktop\\test.txt') 0?wx_fmt=png

(2)、词性标注

可以使用 <=.tagger 或者 tag 来进行分词和词性标注, 词性标注使用混合模型分词，标注采用和 ictclas 兼容的标记法。

(3)、关键词提取

关键词提取所使用逆向文件频率（IDF）文本语料库可以切换成自定义语料库的路径,使用方法与分词类似。topn参数为关键词的个数，这里只提取一个关键词：

(4)、Simhash 与海明距离

对中文文档计算出对应的simhash值。simhash是谷歌用来进行文本去重的算法，现在广泛应用在文本处理中。Simhash引擎先进行分词和关键词提取，后计算Simhash值和海明距离。

最后，推荐中科院ictclas中文分词系统、这个分词系统适用不同的编程语言，对不同的语言都提供了相应的程序接口，应该是国内做得最好的中文分词系统了。

元旦送礼：原价110元的课程，现在免费送，点击【阅读原文】记得领取优惠券，付款时即可抵扣！

大数据技术派

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。