准确分词：加载自定义字典分词（pyhanlp分词示例）

最新推荐文章于 2023-10-30 11:01:49 发布

陈宸-研究僧

最新推荐文章于 2023-10-30 11:01:49 发布

阅读量2.6k

点赞数 2

分类专栏： NLP自然语言处理

本文链接：https://blog.csdn.net/qq_35883464/article/details/93022578

版权

本文介绍了如何在pyhanlp中加载自定义字典以提高分词准确性，详细阐述了pyhanlp的基本介绍、自定义字典的添加步骤，并通过分词对比展示了其效果。

摘要由CSDN通过智能技术生成

tokenizer.py ：hanlp函数

cut_data.py 主文件

全部代码、数据集：https://github.com/455125158/NLP_basis

一、pyhanlp

1.1基本介绍

pyhanlp介绍：https://github.com/hankcs/pyhanlp

pyhanlp在线演示：http://hanlp.com/?sentence=%E4%B8%8B%E9%9B%A8%E5%A4%A9%E5%9C%B0%E9%9D%A2%E7%A7%AF%E6%B0%B4

中文分词≠自然语言处理！

中文分词只是第一步；HanLP从中文分词开始，覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务，提供了丰富的API。

不同于一些简陋的分词类库，HanLP精心优化了内部数据结构和IO接口，做到了毫秒级的冷启动、千万字符每秒的处理速度，而内存最低仅需120MB。无论是移动设备还是大型集群，都能获得良好的体验。

不同于市面上的商业工具，HanLP提供训练模块，可以在用户的语料上训练模型并替换默认模型，以适应不同的领域。项目主页上提供了详细的文档，以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率，在两者之间取一个平衡，真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

pyhanlp常用API：

from pyhanlp import *

print(HanLP.segment('你好，欢迎在Python中调用HanLP的API'))
for term in HanLP.segment('下雨天地面积水'):
    print('{}\t{}'.format(term.word, term.nature)) # 获取单词与词性
testCases = [
    "商品和服务",
    "结婚的和尚未结婚的确实在干扰分词啊",
    "买水果然后来世博园最后去世博会",
    "中国的首都是北京",
    "欢迎新老师生前来就餐",
    "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
    "随着页游兴起到现在的页游繁盛，依赖于存档进行逻辑判断的设计减少了，但这块也不能完全忽略掉。"]
for sentence in testC