这个学期的信息检索课要做一个大的作业,其实就是相当于一个搜索引擎,但是是基于本地文本文件的检索,不需要扒网页,也不能使用Lucence或Lemur等强大的第三方开源软件,要全部自己完成。
要说索引倒是十分简单,就是倒排而已,并没有什么复杂,而且第一版的作业要求只要以字为索引即可,而且不需要对结果进行排序和高亮显示,甚至不需要记录该字在文档中出现的次数和位置。所以在完成的时候也就是使用了一个较为简单的存储数据结构,即HashMap<string, HashSet<int>>这样一个结构,第一个参数存储的是字,后面的HashSet中存储的是该字出现的文档号,由于字和文档号都不需要重复记录,所以采用了哈希结构。
不久又开始做数据库的作业,内容是基于数据库的信息检索,这次的数据量相对要大很多,大概有300多M的数据,而且必须用C++来完成,开始是用STL的map来做,但是map是没有实现哈希的,插入时要判断重复,所以速度会指数级变慢,380万条数据处理到50万时就已经慢到不行了,而且吃内存十分严重,所以就希望自己实现一个HashMap。
虽然网上也有现成的代码,但是还是想自己写一个,想到java中用到了JDK1.6的HashMap,就想着顺便看一下JDK的源码,然后照猫画虎移植到C++中,大概花了一天左右的时间实现了一个较简单的,没有实现迭代器的HashMap,顺便记录一下在看JDK源码时的一些收获,毕竟写得还是相当精彩的,可以这么说吧。
首先是散列码的计算,这是做哈希最重要的一部分,没有一个好的散列函数,一切都是空谈ÿ