学习NLP的第6天——首字散列其余二分的字典树

最新推荐文章于 2023-08-24 12:30:21 发布

长行

最新推荐文章于 2023-08-24 12:30:21 发布

阅读量907

点赞数 2

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/changxing_j/article/details/104699107

版权

数据分析同时被 2 个专栏收录

64 篇文章 5 订阅

订阅专栏

学习NLP的第N天

24 篇文章 31 订阅

订阅专栏

主要通过《自然语言处理入门》(何晗)的第2章来学习散列函数。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。

在当前字典树的查询过程中，需要不断在字典树中查询字符对应的节点。然而，节点在结构中在相对位置是随机的，因此，在结构中查找节点时需进行一系列的比较，而查询的效率则依赖于查询过程中所进行的比较的次数，当字典树分支较多时，查询速度会受到影响。

理想的情况是能够直接根据字符找到对应的节点，因此必须在节点的存储位置和它所对应的字符之间建立一个确定的对应关系f，使每个字符和结构中一个唯一的存储位置相对应。

这里将引入散列函数，它用来将对象转换为整数。

散列函数：也称哈希函数（Hash Function），哈希表中元素是由哈希函数确定的，将数据元素的关键字K作为自变量，通过一定的函数关系（称为哈希函数），计算出的值，即为该元素的存储位置。

在我们之前的学习中（第3天——字典树），使用Python内置的dict作为散列表。但是由于Python没有char类型，字符被视作长度为1的字符串，所以实际调用的就是str的散列函数。由此导致在字符集中相邻的字符在散列值中相差很多，不适合用来设计数据结构。

然而Java中的字符散列函数则将每个字符都映射为16位不重复的连续整数，恰好是完美散列，因此HanLP使用Java的字符散列函数来索引子节点。

但是，也不可能所有节点都使用散列函数，内存会随着字典树层数不断提高，呈指数级膨胀。

故此，采用只在根节点实施散列策略。此时的字典树如图所示。

学习使用教材：《自然语言处理入门》(何晗)：2.4.4

本文中为该教程的学习笔记和理解，个人非常推荐这本书，确实是非常好的教材。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

长行 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。