目录
前言
这里指的不是大数据的存储这些,主要是大数据量去重,统计等等
本文转自这篇文章
个人总结
去重
bitmap
java的实现的bitset,它只适用int类型,10位以内
set去设置进去,get函数如果存在返回true
Bloom filter
布隆过滤器,过滤的时候有一定比例的误差
trie树(字典树)
可以过滤英文,中文
计算重复率
根据上面的工具,循环去计数
倒排索引
基本是搜索引擎的基础,
正向:1 -> 123 , 2 ->456,3 -> 2
反向: 2 -> 1,3
反向可以支持模糊搜索,不用使用数据库like,直接找到索引值
分治法
像high大的计算等等,一般都要分治去统计,计算
求最大值,最小值
堆
在很多的数中求最大值,使用最小堆。最小堆:最小的数放在顶部,如果有人比它大,就把顶部去掉,把那个比他大的数insert进去。
同理:求最小值,使用的是最大堆。