【Hanlp】使用pyhanlp进行新词发现的一点小结

菜菜2022

于 2021-07-14 11:37:19 发布

阅读量1.1k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/kz_java/article/details/118723851

版权

NLP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

之前我使用pyhanlp进行新词发现都是使用：

word_info_list = HanLP.extractWords(IOUtil.newBufferedReader(corpus), 100)

这种方式进行读取的，注意这里的IOUtil.newBufferedReader(corpus)，这里的corpus是要进行新词发现的文本路径，由于适应IOUtil包下的接口对这个文件进行读取，导致文件读取之后释放缓慢，后期继续访问该文件进行其他操作的时候会出现一些问题。
在这里插入图片描述我们可以看到，extractWords接收的对象有BufferedReader和String两种类型，所以，下面我们使用其他的方式进行读取，从而解决之前的文件占用问题

1、读取文件内容 成字符串的形式
2、然后使用extractWords对该字符串进行新词发现
f=open(file_path,mode="r",encoding="utf-8")
data=f.read()
f.close
word_info_list = HanLP.extractWords(data, 100)

即可实现和最开始一样的效果

菜菜2022

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Hanlp】使用pyhanlp进行新词发现的一点小结

之前我使用pyhanlp进行新词发现都是使用：word_info_list = HanLP.extractWords(IOUtil.newBufferedReader(corpus), 100)这种方式进行读取的，注意这里的IOUtil.newBufferedReader(corpus)，这里的corpus是要进行新词发现的文本路径，由于适应IOUtil包下的接口对这个文件进行读取，导致文件读取之后释放缓慢，后期继续访问该文件进行其他操作的时候会出现一些问题。所以，下面我们使用其他的方式进行读取，从
复制链接

扫一扫