将HashMap文件化

最新推荐文章于 2024-02-21 09:57:38 发布

iteye_15246

最新推荐文章于 2024-02-21 09:57:38 发布

阅读量162

点赞数

分类专栏：基础文章标签：算法 Google 数据结构 Oracle OS

基础专栏收录该内容

14 篇文章 0 订阅

订阅专栏

（只是个想法加雏形，实现的很丑陋且效率很低下）

有这样一种场景，校验千万行文本中某一列键值（长度30以上）的唯一性(要求100%准确）。按我的水平，自然就想到用HashMap，可这样就会将所有的键值都放入内存，对内存资源需求较大。然后我就想，数据库也有一样的需求呀，人家怎么搞的呢？思前想后，能力太有限，没思路。最后只能想到，如果把HashMap的存储介质由内存转移到外存（文件中），貌似会节省相当部分的内存（此假设未经证实）。于是着手改造，HashMap实现的主要算法基本了解只是对于寻址那块要从内存转入文件，这是关键。由此做了如下设计：

HashMap的put方法中：

由hashcode算出在table中的位置i，然后以table[i]为链首存储元素。

我的思路：

建一个索引文件，每个索引的结构:数据项+后继索引位置。索引长度：数据项长度+long型的长度(8字节)

table[i]即链首的位置 = i * 数据项长度+8

当首次写入链首时，索引位置埴0，因为下一个元素未知嘛。

当table[i]第n个元素写入时，从链首开始遍历（取后继索引位置，跳转至该位置），直到遍历索引位置为0的链表元素，将要写入第n个元素的文件位置记到此后继索引位置，并将第n个元素写入文件。如果遍历时发现，当前元素数据项与要写入元素的数据项值相同，则发现重复元素。

目前的问题：

1. io操作过多，考虑是不是可以通过内存映像文件来提高提高效率。当然加加cache也行，就是没考虑好怎么加。

2. 还木有想到。。。

上传了我丑陋的代码，运行FileMap就好。

试用了一下jdbm-2.0.jar这个包，100万行数据插入，就是从1到100万，10行一提交。共用了38秒。使用内存14M左右，太NB。严重鄙视我提交的烂代码。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。