中文分词模型-pkuseg-jieba-thulac对比

最新推荐文章于 2024-06-09 16:15:12 发布

嘀嗒嘀嘀嗒嘀

最新推荐文章于 2024-06-09 16:15:12 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/ACBattle/article/details/103421658

版权

NLP 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

实习

3 篇文章 0 订阅

订阅专栏

2020年6月更新
同学推荐中文效果还不错，暂时没有实验，收入收藏夹
fastHan: 基于BERT的中文NLP集成工具

综合结果，三个模型，jieba更适用于本人当前的应用环境，运行时间更迅速。

还有的更多内容，请看here
pkuseg官网的预训练模型下载
因为pkuseg的准确性比jieba高了很多，本计划使用，但是实验过后，pkuseg不太满足自己的需求，而且速度比较慢，还是选择jieba。
在这里插入图片描述

import pkuseg
import os
s = "无时无刻巴赫"
import os
import time
st = time.time()
path ="C:\\Users\\1\\.pkuseg\\"# 下载的模型全部放在了这个目录
files =os.listdir(path)
files.sort()
for file_ in files:
    f_name = str(file_)
    if os.path.isdir(path +file_) and f_name != "postag":
        seg = pkuseg.pkuseg(model_name=path+file_,postag=True)
        text = seg.cut(s)
        print(f_name,text)
print(time.time() - st)

result

ctb8 [('无时无刻', 'v'), ('巴赫', 'nr')]
medicine [('无时', 'd'), ('无', 'v'), ('刻巴赫', 'a')]
mixed [('无时无刻', 'v'), ('巴赫', 'nr')]
msra [('无时无刻', 'v'), ('巴赫', 'nr')]
news [('无时无刻', 'v'), ('巴赫', 'nr')]
web [('无时无刻巴赫', 'l')]
36.3020761013031

和jieba模型结果对比

import jieba
s = ["李扬来到了移动杭研大厦","北京理工","翅展万丈", '无时无刻巴赫']
for i in s:
    seg = pkuseg.pkuseg(model_name='C:\\Users\\1\\.pkuseg\\msra')
    text = seg.cut(i)
    print("pkuseg-medicine:",text)
    seg_list=jieba.cut(i,cut_all=True)
    print("jieba默认模式: " + "/ ".join(seg_list))  # 默认模式
    seg_list=jieba.cut(i,cut_all=False)
    print("jieba精确模式: " + "/ ".join(seg_list))  # 精确模式
    print('\n')

	李扬来到了移动杭研大厦	北京理工	翅展万丈	无时无刻巴赫
pkuseg	李扬/ 来到/ 了/ 移动杭研大厦	北京/ 理工	翅展/ 万丈	无时无刻/ 巴赫
jieba-默认	李/ 扬/ 来到/ 了/ 移动/ 杭/ 研/ 大厦	北京/ 北京理工/ 理工	翅/ 展/ 万丈	无时/ 无时无刻/ 巴赫
jieba-精确	李扬/ 来到/ 了/ 移动/ 杭研/ 大厦	北京理工	翅展/ 万丈	无时无刻/ 巴赫

词性标注

jieba如果标注词性，需要加载另一个包，因此对比了两次。
jieba的词性含义参考

for i in s:
    seg = pkuseg.pkuseg(model_name='C:\\Users\\1\\.pkuseg\\msra',postag = True)
    text = seg.cut(i)
    print("pkuseg-medicine:",text)
    seg = jieba.posseg.cut(i)
    seglist = ""
    for k in seg:
        seglist += k.word + " "+ k.flag + '\t'
    print("jieba", seglist,'\n')

# thulac
import thulac
def get_thulac(text_content):
    thu1 = thulac.thulac(seg_only=False)
    text = thu1.cut(text_content, text=True)
    return text

result

pkuseg
李扬来到了移动杭研大厦	李扬	nr	来到	v	了	u	移动杭研大厦	i
北京理工	北京	ns	理工	j
翅展万丈	翅展	n	万丈	i
无时无刻巴赫	无时无刻	v	巴赫	nr

jieba
李扬来到了移动杭研大厦	李扬	nr	来到	v	了	ul	移动	vn	杭	j	研	vn	大厦	n
北京理工	北京理工	nt
翅展万丈	翅	ng	展	v	万丈	m
无时无刻巴赫	无时无刻	i	巴赫	nr

thulac
李扬来到了移动杭研大厦	李扬	np	来	v	到	v	了	u	移动	v	杭研	j	大厦	n
北京理工	北京	ns	理工	n
翅展万丈	翅展万丈	id
无时无刻巴赫	无时无刻	id	巴赫	np

另一组例子

邓紫棋的忘情水
jieba	邓紫棋	nr	的	uj	忘情水	i
thulac	邓紫棋	np	的	u	忘情水	n

我想听邓紫棋唱忘情水
jieba	我	r	想	v	听	v	邓紫棋	nr	唱	v	忘情水	i
thulac	我	r	想	v	听	v	邓	np	紫棋	n	唱忘	v	情水	n

我想听邓紫棋的忘情水
jieba	我	r	想	v	听	v	邓紫棋	nr	的	uj	忘情水	i
thulac	我	r	想	v	听	v	邓	np	紫棋	n	的	u	忘情水	n

我想听李健的忘情水
jieba	我	r	想	v	听	v	李健	nr	的	uj	忘情水	i
thulac	我	r	想	v	听	v	李健	np	的	u	忘情水	n

嘀嗒嘀嘀嗒嘀

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
中文分词模型-pkuseg-jieba-thulac对比

下载了4个模型，官网也有其他的模型可参考。看下模型结果对比：import pkusegs = "小米粒儿"seg = pkuseg.pkuseg(model_name='./web')text = seg.cut(s)print(text)'''['小米', '粒儿']'''import pkusegs = "小米粒儿"seg = pkuseg.pkuseg(model_na...
复制链接

扫一扫