北大分词工具包 -- pkuseg

最新推荐文章于 2024-08-02 02:19:06 发布

SuperBigData~

最新推荐文章于 2024-08-02 02:19:06 发布

阅读量4.4k

点赞数

分类专栏： # 一.NLP 中文自然语言处理

本文链接：https://blog.csdn.net/Jackson_mvp/article/details/105370738

版权

一.NLP 中文自然语言处理专栏收录该内容

7 篇文章 4 订阅

订阅专栏

美图欣赏：
在这里插入图片描述
一.pkuseg介绍

一个多领域中文分词工具包
其简单易用，支持细分领域分词，有效提升了分词准确度。

pkuseg具有如下几个特点：

多领域分词。不同于以往的通用中文分词工具，此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点，用户可以自由地选择不同的模型。我们目前支持了新闻领域，网络领域，医药领域，旅游领域，以及混合领域的分词预训练模型。在使用中，如果用户明确待分词的领域，可加载对应的模型进行分词。如果用户无法确定具体领域，推荐使用在混合领域上训练的通用模型。
更高的分词准确率。相比于其他的分词工具包，当使用相同的训练数据和测试数据，pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
支持词性标注。

pkuseg的github： https://github.com/lancopku/pkuseg-python

二.pkuseg的安装

pip install pkuseg

三.pkuseg代码实现

import pkuseg

#1.通用领域
seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut('我爱北京天安门,我想买点大枸杞，菟丝子，大红袍')  # 进行分词
print("1.通用领域: ", text)

# 2.特定领域
# seg_med = pkuseg.pkuseg(model_name='medicine') #自动下载细分
# text = seg_med.cut('我爱北京天安门,我想买点大枸杞，菟丝子，大红袍')  # 进行分词
# print("医药领域: ",text)

# 3.分词
# https://github.com/lancopku/pkuseg-python/releases下载medicine，postag地址
seg = pkuseg.pkuseg(postag=True)  # 开启词性标注功能
text = seg.cut('我爱旅游')  # 进行分词和词性标注
print(text)

# 4：对文件分词
# 对input.txt的文件分词输出到output.txt中
# nthread开20个进程

def splitfile(infile, outfile):
    pkuseg.test('input.txt', 'output.txt', nthread=20)
# python main主函数
if __name__ == "__main__":
    splitfile("infile", "outfile")

                  ————保持饥饿，保持学习
                        Jackson_MVP

SuperBigData~

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录