北大分词工具包 -- pkuseg

美图欣赏:
在这里插入图片描述
一.pkuseg介绍

一个多领域中文分词工具包
其简单易用,支持细分领域分词,有效提升了分词准确度

pkuseg具有如下几个特点

多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。在使用中,如果用户明确待分词的领域,可加载对应的模型进行分词。如果用户无法确定具体领域,推荐使用在混合领域上训练的通用模型。
更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
支持词性标注

pkuseg的github: https://github.com/lancopku/pkuseg-python

二.pkuseg的安装

pip install pkuseg

三.pkuseg代码实现

import pkuseg

#1.通用领域
seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut('我爱北京天安门,我想买点大枸杞,菟丝子,大红袍')  # 进行分词
print("1.通用领域: ", text)

# 2.特定领域
# seg_med = pkuseg.pkuseg(model_name='medicine') #自动下载细分
# text = seg_med.cut('我爱北京天安门,我想买点大枸杞,菟丝子,大红袍')  # 进行分词
# print("医药领域: ",text)

# 3.分词
# https://github.com/lancopku/pkuseg-python/releases下载medicine,postag地址
seg = pkuseg.pkuseg(postag=True)  # 开启词性标注功能
text = seg.cut('我爱旅游')  # 进行分词和词性标注
print(text)

# 4:对文件分词
# 对input.txt的文件分词输出到output.txt中
# nthread开20个进程

def splitfile(infile, outfile):
    pkuseg.test('input.txt', 'output.txt', nthread=20)
# python main主函数
if __name__ == "__main__":
    splitfile("infile", "outfile")


                  ————保持饥饿,保持学习
                        Jackson_MVP
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SuperBigData~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值