自然语言处理hanlp------4词典


前言

我们学习只考虑hanlp词典(其他词典:互联网词库和清华大学开放中文词库等)


一、词库的格式了解

词库格式了解
第一列是词典的单词本身,第二列和第三列是词性与词频,当然一个词可能有很多词性,之后就会有第四列和第五列的词性和词频

例如下图的
在这里插入图片描述

二、词典的加载

1.引入数据

去GitHub下载对应使用的版本的资源包:

在这里插入图片描述
将其复制后放置在idea如下结构位置:

在这里插入图片描述
至于model,下载的文件里面目前只有一个说明文档,先不管,之后如有需要了,我们再去下载模型包

2.开始使用

创建demo,类名随便起,根据你自己的喜好
代码如下(示例):

public class NaiveDictionaryBasedSegmentation
{
    public static void main(String[] args) throws IOException {
        // 加载词典
        TreeMap<String, CoreDictionary.Attribute> dictionary =
                IOUtil.loadDictionary("此处填写你自己的文件的路径,下面附上我的截图");
        System.out.printf("词典大小:%d个词条\n", dictionary.size());
        System.out.println(dictionary.keySet().iterator().next());

    }
}

在这里插入图片描述
路径可以直接右键点击txt文件后copy path即可


执行代码

得到结果:

在这里插入图片描述
第一行显示的词条总数
第二行显示的是词典中第一个单词是什么在这里插入代码片

词典大小:85584个词条
±

Process finished with exit code 0

最后

Python版同理
此处附上代码及演示截图:

# -*- coding:utf-8 -*-
from pyhanlp import *


def load_dictionary():
    """
    加载HanLP中的mini词库
    :return: 一个set形式的词库
    """
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')
    dic = IOUtil.loadDictionary([path])
    return set(dic.keySet())


if __name__ == '__main__':
    dic = load_dictionary()
    print(len(dic))
    print(list(dic)[0])

稍作解释:
JClass来根据java包名获取Python类
HanLP.Config.CoreDictionaryPath根据之前的配置文件来获取词典位置
为了方便加载更快,换用mini.txt,故使用replace来替换路径中的后缀

但是,此处我有点迷,最终结果的第二行输出并不是词典第一个单词,我对代码进行了稍微修改,输出了文件的路径,并打开文件对照,仍然不对,此处问题等待我之后明白之后再回改此博客,暂时不做处理。
在这里插入图片描述

此篇over

此外:本人创建了QQ交流群,希望大家来交流学习
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

iterhui

谢谢您对iterhui的支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值