美图欣赏:
一.pkuseg介绍
一个多领域中文分词工具包
其简单易用,支持细分领域分词,有效提升了分词准确度。
pkuseg具有如下几个特点:
多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。在使用中,如果用户明确待分词的领域,可加载对应的模型进行分词。如果用户无法确定具体领域,推荐使用在混合领域上训练的通用模型。
更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
支持词性标注。
pkuseg的github: https://github.com/lancopku/pkuseg-python
二.pkuseg的安装
pip install pkuseg
三.pkuseg代码实现
import pkuseg
#1.通用领域
seg = pkuseg.pkuseg() # 以默认配置加载模型
text = seg.cut('我爱北京天安门,我想买点大枸杞,菟丝子,大红袍') # 进行分词
print("1.通用领域: ", text)
# 2.特定领域
# seg_med = pkuseg.pkuseg(model_name='medicine') #自动下载细分
# text = seg_med.cut('我爱北京天安门,我想买点大枸杞,菟丝子,大红袍') # 进行分词
# print("医药领域: ",text)
# 3.分词
# https://github.com/lancopku/pkuseg-python/releases下载medicine,postag地址
seg = pkuseg.pkuseg(postag=True) # 开启词性标注功能
text = seg.cut('我爱旅游') # 进行分词和词性标注
print(text)
# 4:对文件分词
# 对input.txt的文件分词输出到output.txt中
# nthread开20个进程
def splitfile(infile, outfile):
pkuseg.test('input.txt', 'output.txt', nthread=20)
# python main主函数
if __name__ == "__main__":
splitfile("infile", "outfile")
————保持饥饿,保持学习
Jackson_MVP