文本分词方法

成伟

于 2015-05-26 18:17:46 发布

阅读量3.5k

点赞数 2

分类专栏：其它技术文章文章标签：分词 jieba 结巴文本挖掘文本分词

本文链接：https://blog.csdn.net/u013660881/article/details/46011303

版权

废话不多说，我就直接上干货吧，从过去到现在所知道的分词方法有以下几种：
1、mmseg4j

2、词频分组（有序文本足够）

3、jieba分词

下面细说一下几种分词方法，
第一种，mmseg4j，我使用这种方法是以R来分词的，所以就用R来说这个包，R中这个包的名字叫“rmmseg4j”，详情见该帖：[程序分享]R与中文分词，R中的mmseg包，使用方法如下R code，这种方法还有一个java版本的分词，大家有兴趣的可以试试。

     install.packages("rmmseg4j")
     library(rmmseg4j)#加载安装包
     #然后就是直接的分词了
     word = "我爱小猫小狗，你呢？"
     mmseg4j(word)

第二种，词频分组，该方法就讲讲逻辑，不具体贴出code了。这种方法是限制较大，它必须根据词频、字频得来的，所以原始数据必须是文章或者是一堆有关联的关键词，且必须有一定量级才可以使用；
首先，拆分词句成单字，取一批高频单字，找出高频单字所组成的词，从中选出频数最高的词，该词就是分出的高频词根，然后再将该高频词根从原文或者词中去掉&#

最低0.47元/天解锁文章

成伟

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
文本分词方法

废话不多说，我就直接上干货吧，从过去到现在所知道的分词方法有以下几种： 1、mmseg4j2、词频分组（有序文本足够）3、jieba分词下面细说一下几种分词方法，第一种，mmseg4j，我使用这种方法是以R来分词的，所以就用R来说这个包，R中这个包的名字叫“rmmseg4j”，详情见该帖：[程序分享]R与中文分词，R中的mmseg包，使用方法如下R code，这种方法还有一个java版本的分词
复制链接

扫一扫