北京大学开源分词工具pkuseg 初试与使用感受

最新推荐文章于 2024-08-02 02:19:06 发布

智绘山河

最新推荐文章于 2024-08-02 02:19:06 发布

阅读量2.6w

点赞数

分类专栏： Natural Language Processing

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/meiqi0538/article/details/86181846

版权

Natural Language Processing 专栏收录该内容

33 篇文章 43 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文介绍了北京大学开源的中文分词工具pkuseg，对比了其与其他分词工具的性能，强调了pkuseg的高准确率和多领域分词能力。通过实例展示了安装、使用和自训练模型的过程，探讨了其在实际应用中的优缺点。

摘要由CSDN通过智能技术生成

本部分内容部分来自：https://github.com/lancopku/PKUSeg-python

1.前言

最近看到一些博文介绍了北大的一个开源的中文分词工具包pkuseg。其中说到，它在多个分词数据集上都有非常高的分词准确率，我们所知道的，也经常使用的结巴分词误差率高达 18.55% 和 20.42，而北大的 pkuseg 只有 3.25% 与 4.32%。当然还有其他的分词工具，如：清华大学的THULAC，HanLp,pynlpir等工具。分词的重要性不言而喻，在看到相关介绍后也在第一时间去尝试一下，以下根据github开源信息做出实验，其使用的语言是python。github地址为：https://github.com/lancopku/PKUSeg-python。

2.简介

pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg具有如下几个特点：

高分词准确率。相比于其他的分词工具包，该工具包在不同领域的数据上都大幅提高了分词的准确度。根据测试结果，pkuseg分别在示例数据集（MSRA和CTB8）上降低了79.33%和63.67%的分词错误率。

了解本专栏

超级会员免费看

关注

0
点赞
踩
58

收藏

觉得还不错? 一键收藏
打赏
24
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 24

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

智绘山河 你的鼓励可能解决你下一个问题

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。