ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具

Pubseg是基于BiLSTM的中文分词工具,提供高精度分词,特别是在ICWS2005-PKU语料下表现优秀。与jieba、IK、pkuseg、Stanza相比,Pubseg在测试集上的精度、召回率和F1值均有优势。文章介绍了Pubseg的安装、使用方法以及性能测试,包括字典加载、模型加载时间和推理速度。
摘要由CSDN通过智能技术生成

中文分词是中文自然语言处理中的重要的步骤,有一个更高精度的中文分词模型会显著提升文档分类、情感预测、社交媒体处理等任务的效果[1]。

Pubseg是基于BiLSTM中文分词工具,基于ICWS2005PKU语料训练集训练而成,其优点在于在ICWS2005-PKU语料下训练精度达到99.99%,测试集上精度94.34%,召回94.21%, F1值94.26%。

分词模型是基于Keras设计,其详细描述见[2],其模型结构如图1:

1be553e81c470f5a76e14ef2904845d8.png
图1 PretrainedUnigram+Bigram+Context+Dropout+BiLSTM+BN网络

在ICWS2005PKU测试集下比较jieba、IK、pkuseg、Stanza的评价,其对比结果如图2所示:

76c999fd2c70c6bc4c6218a6511139b0.png
图2 ICWS2005PKU测试集下比较jieba、IK、pkuseg、Stanza与Pubseg比较

下面介绍如何安装使用Pubseg工具。准备工作,准备python3.6以上版本。安装依赖: numpy==1.18.1, keras==2.2.4, tensorflow-gpu==1.15.2
下载Pubseg中文分词模型,由于模型太大,结构文件与权重文件分开存储。下载地址如下:https://pan.baidu.com/s/1LnjZD9HVQ164uAe0-XpPsg;提取码:zm41;也可以扫码下载,下载地址见图3:

81e144fea55e52388a704cd14fdcd7cb.png
图3 Pubseg中文分词模型下载地址

模型下载后,需要下载Pubseg代码git clone https://github.com/ShenDezhou/LSTM

下面介绍基本用法,

首先,创建一个PUB_BiLSTM_BN类的对象bilstm;

其次,通过命令行指定字典文件和模型文件路径:-u <unigramfile> -b <bigramfile> -a <archfile> -w <weightfile>,默认路径为:

UNIGRAM = 'pku_dic/pku_dict.utf8'  #字典
BIGRAM = 'pku_dic/pku_bigram.utf8'  #二字词典
MODELARCH = 'keras/B20-E60-F5-PU-Bi-Bn-De.json'  #keras模型
MODELWEIGHT = "keras/B20-E60-F5-PU-Bi-Bn-De-weights.h5"  #keras权重

再次,调用对象bilstm的加载Keras模型函数loadKeras;

最后,调用对象bilstm的cut函数,入参为待分词中文文本,返回结果为空格分隔后的中文文本。

完整代码如下:

bilstm = PUB_BiLSTM_BN()
bilstm.loadKeras()
segs = bilstm.cut(["我昨天去清华大学。", "他明天去北京大学,再后天去麻省理工大学。"])

完整代码见[3]。

模型的性能如下,在ICWS2005-PKU语料下训练精度达到99.99%,测试集上精度94.34%,召回94.21%, F1-值94.26%。

模型加载性能、推理性能:
CPU:Intel i56300HQ 2.30Ghz
SSD: Samsung 970 EVO 1TB M.2 NVMe PCIe SSD
GPU:GeForce GTX 950M-DDR3
字典加载时间:176ms
模型及权重加载时间:1m45s664ms


推理性能:
47.47ms/字 #以"我 昨天 去 清华 大学 。他 明天 去 北京 大学 , 再 后天 去 麻省 理工大学 。"为测试条件;
13.30ms/行 #以PKUTEST1944行 为测试条件。

结论,本文提出了一种基于预训练字与二字向量的BiLSTM中文分词工具Pubseg,其性能在PKU测试集上取得了超过同类分词模型的效果。

[1]待论证。

[2]基于Pretrained-UnigramBigram的中文分词模型 https://zhuanlan.zhihu.com/p/111681404

[3]Pubseg:一种单双字串的BiLSTM中文分词工具 https://github.com/ShenDezhou/LSTM

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值