在Hanlp词典手动添加未登录词的方式介绍

在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下:

一,在Hanlp词典中添加未登录词

1.找到hanlp内置词典目录

位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom 也就是Hanlp安装包中的data\dictionary\custom下目录

 

  1. 将未登录词以词名,词性,词频的格式添加到文件中(句首或者句尾都可以)

 

3.将字典的同名bin文件删除掉

执行文件时读取的是bin文件,必须删掉后等下次执行时重新生成,新字典才发挥作用

 

4.使用新字典重新执行文件

执行时会遇到没有相关bin文件的提示,不过放心,程序会自动生成一个新的bin文件,骚等片刻,就好了。

 

验证结果是否正确

 

文章来源:小鱼儿的博客

 

NLTK (Natural Language Toolkit) 是Python中用于处理自然语言数据的强大库,它允许用户添加自定义词典来扩展其功能。如果你想将特定汇或短语纳入NLTK的分析,可以按照以下步骤操作: 1. **下载停用(如果需要)**:首先,确保你已经安装了`nltk.corpus.stopwords`。这包含了常见的英文停用,如果你有自己的自定义不需要这个,可以直接跳过。 2. **创建词典文件**:将你的自定义单保存在一个文本文件中,每行一个单,例如`custom_words.txt`。 3. **加载词典**:使用`nltk.corpus.reader.DictionaryReader`加载自定义词典,你可以这样操作: ```python from nltk.corpus import Dictionary custom_dict = Dictionary.load_from_text('custom_words.txt') ``` 4. **添加到NLTK环境**:将自定义词典添加到NLTK的数据路径下,通常是`~/.nltk_data/corpora`目录。如果词典不在那里,可以用`nltk.download`下载: ```shell python -m nltk.downloader punkt python -m nltk.downloader self.added_corpus_name # 替换self.added_corpus_name为你给词典起的名字 ``` 5. **更新分器**:为了让新的词典生效,你需要重新加载分器或者料库,比如`word_tokenize`函数: ```python from nltk.tokenize import word_tokenize sentence = "这是我的自定义" words = word_tokenize(sentence, include_custom=True) ``` `include_custom=True`表示在分时考虑你的自定义词典。 6. **测试**:现在,当你对包含自定义汇的句子进行处理时,它们会被识别并计入分析结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值