本地文本索引及java的HashMap实现

最新推荐文章于 2024-07-05 12:08:36 发布

BTzjzxxx

最新推荐文章于 2024-07-05 12:08:36 发布

阅读量1.3k

点赞数

文章标签： hashmap java table jdk string 作业

本文链接：https://blog.csdn.net/BTzjzxxx/article/details/4925271

版权

本文讲述了作者在信息检索课程作业中使用HashMap实现本地文本索引的过程。从简单的HashMap结构开始，讨论了HashMap的散列码计算及其优化，以及处理冲突的链表结构。还提及了在大数据量情况下，对比STL map，自定义HashMap的性能优势。最后，作者分享了对JDK源码的学习心得，包括HashSet的实现原理。

摘要由CSDN通过智能技术生成

这个学期的信息检索课要做一个大的作业，其实就是相当于一个搜索引擎，但是是基于本地文本文件的检索，不需要扒网页，也不能使用Lucence或Lemur等强大的第三方开源软件，要全部自己完成。

要说索引倒是十分简单，就是倒排而已，并没有什么复杂，而且第一版的作业要求只要以字为索引即可，而且不需要对结果进行排序和高亮显示，甚至不需要记录该字在文档中出现的次数和位置。所以在完成的时候也就是使用了一个较为简单的存储数据结构，即HashMap<string, HashSet<int>>这样一个结构，第一个参数存储的是字，后面的HashSet中存储的是该字出现的文档号，由于字和文档号都不需要重复记录，所以采用了哈希结构。

不久又开始做数据库的作业，内容是基于数据库的信息检索，这次的数据量相对要大很多，大概有300多M的数据，而且必须用C++来完成，开始是用STL的map来做，但是map是没有实现哈希的，插入时要判断重复，所以速度会指数级变慢，380万条数据处理到50万时就已经慢到不行了，而且吃内存十分严重，所以就希望自己实现一个HashMap。

虽然网上也有现成的代码，但是还是想自己写一个，想到java中用到了JDK1.6的HashMap，就想着顺便看一下JDK的源码，然后照猫画虎移植到C++中，大概花了一天左右的时间实现了一个较简单的，没有实现迭代器的HashMap，顺便记录一下在看JDK源码时的一些收获，毕竟写得还是相当精彩的，可以这么说吧。

首先是散列码的计算，这是做哈希最重要的一部分，没有一个好的散列函数，一切都是空谈ÿ

最低0.47元/天解锁文章

BTzjzxxx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
本地文本索引及java的HashMap实现

这个学期的信息检索课要做一个大的作业，其实就是相当于一个搜索引擎，但是是基于本地文本文件的检索，不需要扒网页，也不能使用Lucence或Lemur等强大的第三方开源软件，要全部自己完成。要说索引倒是十分简单，就是倒排而已，并没有什么复杂，而且第一版的作业要求只要以字为索引即可，而且不需要对结果进行排序和高亮显示，甚至不需要记录该字在文档中出现的次数和位置。所以在完成的时候也就是使用了一个较为简
复制链接

扫一扫