一:给定a,b两个文件,每个存放50亿个URL,每个URL各占64字节,内存限制是4G,找出a,b文件共同的URL
大致思路:
1、编写hash函数,把这两个文件中的内容都做hash散列,比如a文件和b文件都散裂成1000个文件
2、这样相同的url只会出现在从a和b文件散列出来的对应的编号中的文件中
3、所以,拿出对应编号的a中和b文件中散列出来的小文件,进行求共同url即可
请好好思考hash散列的思想一:给定a,b两个文件,每个存放50亿个URL,每个URL各占64字节,内存限制是4G,找出a,b文件共同的URL
大致思路:
1、编写hash函数,把这两个文件中的内容都做hash散列,比如a文件和b文件都散裂成1000个文件
2、这样相同的url只会出现在从a和b文件散列出来的对应的编号中的文件中
3、所以,拿出对应编号的a中和b文件中散列出来的小文件,进行求共同url即可
请好好思考hash散列的思想