中文分词模型-pkuseg-jieba-thulac对比

2020年6月更新
同学推荐中文效果还不错,暂时没有实验,收入收藏夹
fastHan: 基于BERT的中文NLP集成工具

综合结果,三个模型,jieba更适用于本人当前的应用环境,运行时间更迅速。

还有的更多内容,请看here
pkuseg官网的预训练模型下载
因为pkuseg的准确性比jieba高了很多,本计划使用,但是实验过后,pkuseg不太满足自己的需求,而且速度比较慢,还是选择jieba。
在这里插入图片描述

import pkuseg
import os
s = "无时无刻巴赫"
import os
import time
st = time.time()
path ="C:\\Users\\1\\.pkuseg\\"# 下载的模型全部放在了这个目录
files =os.listdir(path)
files.sort()
for file_ in files:
    f_name = str(file_)
    if os.path.isdir(path +file_) and f_name != "postag":
        seg = pkuseg.pkuseg(model_name=path+file_,postag=True)
        text = seg.cut(s)
        print(f_name,text)
print(time.time() - st)
result
ctb8 [('无时无刻', 'v'), ('巴赫', 'nr')]
medicine [('无时', 'd'), ('无', 'v'), ('刻巴赫', 'a')]
mixed [('无时无刻', 'v'), ('巴赫', 'nr')]
msra [('无时无刻', 'v'), ('巴赫', 'nr')]
news [('无时无刻', 'v'), ('巴赫', 'nr')]
web [('无时无刻巴赫', 'l')]
36.3020761013031
和jieba模型结果对比
import jieba
s = ["李扬来到了移动杭研大厦","北京理工","翅展万丈", '无时无刻巴赫']
for i in s:
    seg = pkuseg.pkuseg(model_name='C:\\Users\\1\\.pkuseg\\msra')
    text = seg.cut(i)
    print("pkuseg-medicine:",text)
    seg_list=jieba.cut(i,cut_all=True)
    print("jieba默认模式: " + "/ ".join(seg_list))  # 默认模式
    seg_list=jieba.cut(i,cut_all=False)
    print("jieba精确模式: " + "/ ".join(seg_list))  # 精确模式
    print('\n')
李扬来到了移动杭研大厦北京理工翅展万丈无时无刻巴赫
pkuseg李扬/ 来到/ 了/ 移动杭研大厦北京/ 理工翅展/ 万丈无时无刻/ 巴赫
jieba-默认李/ 扬/ 来到/ 了/ 移动/ 杭/ 研/ 大厦北京/ 北京理工/ 理工翅/ 展/ 万丈无时/ 无时无刻/ 巴赫
jieba-精确李扬/ 来到/ 了/ 移动/ 杭研/ 大厦北京理工翅展/ 万丈无时无刻/ 巴赫

词性标注

jieba如果标注词性,需要加载另一个包,因此对比了两次。
jieba的词性含义参考

for i in s:
    seg = pkuseg.pkuseg(model_name='C:\\Users\\1\\.pkuseg\\msra',postag = True)
    text = seg.cut(i)
    print("pkuseg-medicine:",text)
    seg = jieba.posseg.cut(i)
    seglist = ""
    for k in seg:
        seglist += k.word + " "+ k.flag + '\t'
    print("jieba", seglist,'\n')
# thulac
import thulac
def get_thulac(text_content):
    thu1 = thulac.thulac(seg_only=False)
    text = thu1.cut(text_content, text=True)
    return text
result
pkuseg
李扬来到了移动杭研大厦李扬nr来到vu移动杭研大厦i
北京理工北京ns理工j
翅展万丈翅展n万丈i
无时无刻巴赫无时无刻v巴赫nr
jieba
李扬来到了移动杭研大厦李扬nr来到vul移动vnjvn大厦n
北京理工北京理工nt
翅展万丈ngv万丈m
无时无刻巴赫无时无刻i巴赫nr
thulac
李扬来到了移动杭研大厦李扬npvvu移动v杭研j大厦n
北京理工北京ns理工n
翅展万丈翅展万丈id
无时无刻巴赫无时无刻id巴赫np

另一组例子

邓紫棋的忘情水
jieba邓紫棋nruj忘情水i
thulac邓紫棋npu忘情水n
我想听邓紫棋唱忘情水
jiebarvv邓紫棋nrv忘情水i
thulacrvvnp紫棋n唱忘v情水n
我想听邓紫棋的忘情水
jiebarvv邓紫棋nruj忘情水i
thulacrvvnp紫棋nu忘情水n
我想听李健的忘情水
jiebarvv李健nruj忘情水i
thulacrvv李健npu忘情水n
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值