本地文本索引及java的HashMap实现

本文讲述了作者在信息检索课程作业中使用HashMap实现本地文本索引的过程。从简单的HashMap结构开始,讨论了HashMap的散列码计算及其优化,以及处理冲突的链表结构。还提及了在大数据量情况下,对比STL map,自定义HashMap的性能优势。最后,作者分享了对JDK源码的学习心得,包括HashSet的实现原理。
摘要由CSDN通过智能技术生成

这个学期的信息检索课要做一个大的作业,其实就是相当于一个搜索引擎,但是是基于本地文本文件的检索,不需要扒网页,也不能使用Lucence或Lemur等强大的第三方开源软件,要全部自己完成。

要说索引倒是十分简单,就是倒排而已,并没有什么复杂,而且第一版的作业要求只要以字为索引即可,而且不需要对结果进行排序和高亮显示,甚至不需要记录该字在文档中出现的次数和位置。所以在完成的时候也就是使用了一个较为简单的存储数据结构,即HashMap<string, HashSet<int>>这样一个结构,第一个参数存储的是字,后面的HashSet中存储的是该字出现的文档号,由于字和文档号都不需要重复记录,所以采用了哈希结构。

不久又开始做数据库的作业,内容是基于数据库的信息检索,这次的数据量相对要大很多,大概有300多M的数据,而且必须用C++来完成,开始是用STL的map来做,但是map是没有实现哈希的,插入时要判断重复,所以速度会指数级变慢,380万条数据处理到50万时就已经慢到不行了,而且吃内存十分严重,所以就希望自己实现一个HashMap。

虽然网上也有现成的代码,但是还是想自己写一个,想到java中用到了JDK1.6的HashMap,就想着顺便看一下JDK的源码,然后照猫画虎移植到C++中,大概花了一天左右的时间实现了一个较简单的,没有实现迭代器的HashMap,顺便记录一下在看JDK源码时的一些收获,毕竟写得还是相当精彩的,可以这么说吧。

首先是散列码的计算,这是做哈希最重要的一部分,没有一个好的散列函数,一切都是空谈ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
倒排索引(Inverted Index)是一种常见的文本索引方法,它将文档中出现的词汇按照字典序排序,然后将每个单词出现的文档列表存储在索引中。当用户查询某个单词时,系统会搜索该单词在索引中的文档列表,以快速定位相关文档。 下面是一个简单的倒排索引Java 实现: ``` import java.util.*; public class InvertedIndex { private Map<String, List<Integer>> index = new HashMap<>(); public void addDocument(int docId, String content) { String[] words = content.split("\\s+"); for (String word : words) { List<Integer> docIds = index.getOrDefault(word, new ArrayList<>()); docIds.add(docId); index.put(word, docIds); } } public List<Integer> search(String query) { return index.getOrDefault(query, Collections.emptyList()); } } ``` 在这个实现中,`addDocument` 方法用于将文档添加到索引中,`search` 方法用于根据查询词查找对应的文档列表。索引使用了一个 `Map` 来存储单词和文档列表之间的映射关系,其中键是单词,值是包含该单词的文档编号的列表。`addDocument` 方法首先将文档内容按照空格分隔成单词数组,然后遍历每个单词,将其加入索引中。如果单词已经在索引中存在,就将当前文档编号加入到对应的文档列表中;否则,就创建一个新的文档列表,并将其加入到索引中。`search` 方法直接返回对应查询词的文档列表,如果该单词没有在索引中出现过,则返回一个空列表。 这只是一个简单的倒排索引实现,实际应用中还需要考虑一些复杂的情况,比如如何处理停用词、如何处理同义词、如何计算文档之间的相似度等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值