大数据解决方案核心的核心 —— Map技术

最新推荐文章于 2020-12-05 21:19:49 发布

置顶 pww71

最新推荐文章于 2020-12-05 21:19:49 发布

阅读量2.4w

点赞数 6

文章标签：算法 c++ 大数据 map 信息安全

本文链接：https://blog.csdn.net/pww71/article/details/25113303

版权

对于c++程序来说 map的使用无处不在。影响程序性能的瓶颈也往往是map的性能。尤其在大数据情况下，以及业务关联紧密而无法实现数据分
发和并行处理的情况。map的性能就成了最关键的技术。

在电信行业和信息安全行业的工作经历，我都是和底层大数据打交道，尤其信息安全行业数据最复杂，都离不开map。
比如：ip表、mac表，电话号码表、域名解析表、身份证号码表的查询、病毒木马的特征码的云查杀等等。
stl库的map采用二分查找，性能最差。Google的哈希map性能和内存目前是最优的，但是有重复碰撞的机率。现在大数据基本上不用有碰撞
几率的map。

现在我把pwwMap算法发布出来。大家可以测试对比发现，我的算法属于零碰撞的几率，但是性能比哈希算法还优。就是普通map的性能也和google相差无几。

程序使用我的map 最直接的效益就是原来需要十个服务器解决的方案现在只需要一个服务器。

下载地址：第二个实时更新代码
http://download.csdn.net/detail/pww71/9379828
http://sourceforge.net/projects/pwwhashmap/?source=navbar

pwwMap包含三种map。
1、memmap 支持插入，修改，删除，查询等日常操作。适合任何场合下使用。采用独特的索引技术，性能和内存比stl库的map高百倍以上。
2、hashmap 仅仅支持查询。适合高速查询的场合。完美哈希算法，无碰撞几率。性能比目前的google哈希算法快100倍。
3、diskmap 支持插入，修改，删除，查询等日常操作，nosql单机版的功能。其数据量可以高达百亿，查询性能依旧强劲。对比google的leveldb技术，优势明显。
个人认为：1和2两种map是核心，3的map主要是采用了1的map做索引，所以性能才超越google的levedb。

我的算法是完美哈希算法，键的索引以及压缩算法的原理是独树一帜与众不同的，关键是结构完全不同，所以键索引压缩就根本性不同。大家
可以参考以下文章:
http://blog.csdn.net/chixinmuzi/article/details/1727195

欢迎加入qq技术群：14773392