jieba和thulac使用比较

jieba和thulac使用比较


#coding=utf-8
import thulac
import time
import jieba
#test='我们还提供更复杂、完善和精确的分词和词性标注联合模型Model_3和分词词表。该模型是由多语料联合训练训练得到(语料包括来自多文体的标注文本和人民日报标注文本等)'

a=jieba.cut('我想听邓紫棋的忘情水')
end2=time.time()
print (' '.join(a))

thu1=thulac.thulac(seg_only=True)
text = thu1.cut('我要听邓紫棋的忘情水', text=True)
end1=time.time()
print (text)


Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.645 seconds.
Prefix dict has been built succesfully.
我 想 听 邓紫棋 的 忘情水
Model loaded succeed
我 要 听 邓 紫棋 的 忘情 水

jieba分词效果相对好些。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值