pkuseg分词库以及使用(1)，开发这么久这些问题都不会

最新推荐文章于 2024-05-13 20:51:25 发布

m0_60635321

最新推荐文章于 2024-05-13 20:51:25 发布

阅读量1.2k

点赞数 23

分类专栏：程序员学习文章标签： python 人工智能开发语言

本文链接：https://blog.csdn.net/m0_60635321/article/details/136859955

版权

多领域分词。不同于以往的通用中文分词工具，此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点，用户可以自由地选择不同的模型。我们目前支持了新闻领域，网络领域，医药领域，旅游领域，以及混合领域的分词预训练模型。在使用中，如果用户明确待分词的领域，可加载对应的模型进行分词。如果用户无法确定具体领域，推荐使用在混合领域上训练的通用模型。各领域分词样例可参考 example.txt。
高分词准确率。相比于其他的分词工具包，该工具包在不同领域的数据上都大幅提高了分词的准确度。根据测试结果，pkuseg分别在示例数据集（MSRA和CTB8）上降低了79.33%和63.67%的分词错误率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
支持词性标注。

3、编译和安装

==================================================================

pip install pkuseg

之后通过import pkuseg来引用

4、使用方式

关注