文本分词方法

废话不多说,我就直接上干货吧,从过去到现在所知道的分词方法有以下几种:
1、mmseg4j

2、词频分组(有序文本足够)

3、jieba分词

下面细说一下几种分词方法,
第一种,mmseg4j,我使用这种方法是以R来分词的,所以就用R来说这个包,R中这个包的名字叫“rmmseg4j”,详情见该帖:[程序分享]R与中文分词R中的mmseg包,使用方法如下R code,这种方法还有一个java版本的分词,大家有兴趣的可以试试。

     install.packages("rmmseg4j")
     library(rmmseg4j)#加载安装包
     #然后就是直接的分词了
     word = "我爱小猫小狗,你呢?"
     mmseg4j(word)


第二种,词频分组,该方法就讲讲逻辑,不具体贴出code了。这种方法是限制较大,它必须根据词频、字频得来的,所以原始数据必须是文章或者是一堆有关联的关键词,且必须有一定量级才可以使用;
首先,拆分词句成单字,取一批高频单字,找出高频单字所组成的词,从中选出频数最高的词,该词就是分出的高频词根,然后再将该高频词根从原文或者词中去掉&#

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值