【python,hanlp】pyhanlp分词如何加入自定义词典

step1:首先找到pyhanlp的安装位置

这里分两种情况:
1、安装位置在虚拟环境

E:\apps\Anaconda3\envs\dome\Lib\sitepackages\pyhanlp\static\data\dictionary\custom

envs文件夹下面存放的就是python编译器所有的虚拟环境列表,这里我使用的是dome虚拟环境,按照这种格式”虚拟环境->Lib->site-packages->pyhanlp->static->data->dictionary->custom“一步一步找到词典存放位置,可以将自定义词典放在此文件夹下面。比如下图的:金融词库.txt就是我的金融行业的自定义词典。加入词典之后,便可以进行下一步操作,这里我的自定义词典仅仅有词没有词性和词频。一词一行行与行之间没有空格,词顶行排列,行尾没有多余的空格符。
在这里插入图片描述
在这里插入图片描述
2、未使用虚拟环境
在这里插入图片描述
没有安装虚拟环境下,而在真实环境安装pyhanlp的小伙伴直接按照上图找到site-packages目录按照Lib->site-packages->pyhanlp->static->data->dictionary->custom的路径进行和虚拟环境下进行一样的操作即可。

step2:配置自定义字典路径

1、使用虚拟环境
在这里插入图片描述
2、未使用虚拟环境
仅仅是路径不同,Anaconda3->Lib->site-packages->pyhanlp->static下找到该文件,打开进行如下图修改:
在这里插入图片描述
其中字典的先后顺序代表的是优先级。

step3:删除”CustomDictionary.txt.bin”文件,运行分词程序重新生成该文件,即可实现使用自定义字典进行分词的功能。

在这里插入图片描述
参考:https://blog.csdn.net/lzbmc/article/details/90083561

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python中的jieba分词库非常方便,但有时候我们可能需要通过自定义词典来增加词汇量,使得分词更加准确。对于jieba,我们可以很方便地加入自定义词典。 首先,我们需要创建一个文本文件,每行一个自定义词汇。每个词汇需要按照以下格式进行输入:word1 frequency1 pos1\nword2 frequency2 pos2\n … 其中,word为词汇,frequency为词频,pos为词性,但是如果没有规定,则pos部分可以省略。例如: 学术 5 n 大数据 3 计算机科学 10 之后,我们可以使用jieba库提供的add_word和load_userdict两个方法来增加自定义词典。其中,add_word方法可以只增加一个词汇,而load_userdict方法则可以读取整个自定义词典文件。例如: import jieba jieba.add_word('大数据') # 添加一个单独的词汇 jieba.load_userdict('userdict.txt') # 加载整个自定义词典文件 使用自定义词典之后,我们可以对文本进行分词并查看分词结果,例如: import jieba text = '大数据是计算机科学中的一个分支,其涉及到大规模数据的处理和分析。' seg_list = jieba.cut(text, cut_all=False) print('/'.join(seg_list)) 结果如下: 大数据/是/计算机科学/中/的/一个/分支/,/其/涉及到/大规模/数据/的/处理/和/分析/。 我们可以看到,添加自定义词典后,jieba分词将“大数据”识别为一个单独的词汇,从而得到了比不添加自定义词典更准确的分词结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值