文章目录
使用自定义类型作为HashMap的Key
重写hashCode和equals
HashMap思想
K;千 M:百万 G:十亿
用来处理海量数据问题 (不容算法、哈希、归并与堆排序、分治思想)
1、海量日志数据,提取出某日访问百度次数最多的那个
IP(32位) -》共2^32(即4G)种ip地址
hash(ip)%1000 1000个小文件
0,1,2,…, 999 把数据加载到内存中,找出每一个ip最大,
HashMap<ip, count> 1000个小文件中出现频度的ip
1000个ip最大找Top1
2、给定a、b 两 个文件,各存放50亿个url,每个url各占64字节, 内存限制是4G,让你找出a、b文件共同的url
-》预估每个文件大小为5G*每个url占64 = 一共占320G,不可能全部加载到内存当中
步骤1: 每个大文件分为1000个 小文件 hash(url)%1000
a-> a0,a1,a2,…,a999
b-> b0,b1,b2,…,b999
注意:相同url对应到 相同 的 小文件 中,a0的哈希 和 b0的哈希相同,…
对每个小文件逐个去找相同的url,HashSet(key, value)
HashSet基于HashMap实现,key是 有效值(不允许重复),value是一个 常 量(key重复,新值覆盖旧值)
步骤2: a0 全放入一个 HashSet
b0去逐个遍历HashSet,若发现key已经有了,就是相同的URL
自定义Students类型
package collection;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
class Student{
private String name;
private int age;
public Student(){
}
public Student(String name, int age){
this.name = name;
this.age = age;
}
public String getName() {
return name;
}
public void setName

最低0.47元/天 解锁文章
2848

被折叠的 条评论
为什么被折叠?



