一、pkuseg和jieba的比较
与国内主流分词工具jieba相比,北大新开源的分词工具pkuseg(项目链接)在四个测试集上的F-score平均值高于jieba近10个百分点。见下图。
![](https://i-blog.csdnimg.cn/blog_migrate/086d2bdf1ac74e4e2dd501f00ae61a07.png)
二、筛选名词案例
(一)分词环境配置
pkuseg支持领域分词,调用时指定特定的领域可自动下载相应模型,但是容易下载失败,建议自行下载并配置环境。如,笔者在此下载了医疗领域包medicine.zip和词性标注包postag.zip,将压缩包和解压文件一起防在了目录C:\Users\enshi.pkuseg下。见下图。
![](https://i-blog.csdnimg.cn/blog_migrate/6f804e17644ba8f3513420799c26a2af.png)
(二)筛选名词
pkuseg提供了配套的词性表词性表,下载后用逗号隔开。见下图。
![](https://i-blog.csdnimg.cn/blog_migrate/a68dd9da6ab1c26f025b97480f691463.png)
#!/usr/bin/python3
# -*- coding:utf-8 -*-
"""
@Author : heyw
@Contact : he_yuanwen@126.com
@Time : 2020/2/18 18:55
@Software: PyCharm
@FileName: get_nouns.py
"""
import pkuseg
# 选择医疗细领域模型