NLP中jieba分词的用法(一)

一:首先介绍一下分词工具,其中用的比较多的分词工具有:
结巴中文分词 209.222.69.242:9000/
中科院分词系统 ictclas.org/ictclas_dem
smallseg smallseg.appspot.com/sm
snailseg snailsegdemo.appspot.

哈工大的分词器:主页上给过调用接口,每秒请求的次数有限制。

清华大学THULAC:目前已经有Java、Python和C++版本,并且代码开源。

斯坦福分词器:作为众多斯坦福自然语言处理中的一个包,目前最新版本3.7.0, Java实现的CRF算法。可以直接使用训练好的模型,也提供训练模型接口。

Hanlp分词:求解的是最短路径。优点:开源、有人维护、可以解答。原始模型用的训练语料是人民日报的语料,当然如果你有足够的语料也可以自己训练。

结巴分词工具:基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。

字嵌入+Bi-LSTM+CRF分词器:本质上是序列标注,这个分词器用人民日报的80万语料,据说按照字符正确率评估标准能达到97.5%的准确率,各位感兴趣可以去看看。

ZPar分词器:新加坡科技设计大学开发的中文分词器,包括分词、词性标注和Parser,支持多语言,据说效果是公开的分词器中最好的,C++语言编写。



结巴中文分词是免费开源的,中科院分词需要付费,smallseg和snailseg需要翻墙才能用。

二:jieba分词的安装下载:
        在Ubuntu16.04中安装:pip install jieba,完成之后可以直接import jieba就可以用了


三:jieba分词的简单实例

# encoding=utf-8
import jieba
seg_list = jieba.cut("我是李洋,我正在学习有趣的自然语言处理", cut_all=True)
print seg_list
print("Full Mode: " + "/ ".join(seg_list))

seg_list = jieba.cut("我我是李洋,我正在学习有趣的自然语言处理", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))

seg_list = jieba.cut("我是李洋,我正在学习有趣的自然语言处理")
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("我是李洋,我正在学习有趣的自然语言处理")
print(", ".join(seg_list))

Full Mode: 我/ 是/ 李/ 洋/ / / 我/ 正在/ 学习/ 有趣/ 的/ 自然/ 自然语言/ 语言/ 处理
Default Mode: 我/ 我/ 是/ 李洋/ ,/ 我/ 正在/ 学习/ 有趣/ 的/ 自然语言/ 处理
我, 是, 李洋, ,, 我, 正在, 学习, 有趣, 的, 自然语言, 处理
我, 是, 李洋, ,, 我, 正在, 学习, 有趣, 的, 自然, 语言, 自然语言, 处理



四:上面实例我们已经明白了,但是还有很多很多小的细节我们需要学习。首先来看一下下面的例子:
import jieba
print('/'.join(jieba.cut('我已经喜欢你很久了。', HMM=False)))
jieba.suggest_freq(('',''),True)
print('/'.join(jieba.cut('我已经喜欢你很久了。',HMM=False)))
我/已经/喜欢/你/很/久/了/。
我/已经/喜/欢/你/很/久/了/。
这里在分词时把喜欢分到了一块,如果我们想让喜欢分开来,这里就需要用到jieba.suggest_freq()这个方法




  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值