算法思想
韩利鹏
大数据处理-java高级工程师
展开
-
分而治之_大数据
问题: 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将ur原创 2016-11-25 11:30:39 · 1079 阅读 · 3 评论 -
大数据面试题
1.你用过哪些机器学习/数据挖掘工具或框架? 2.你在项目中主要用过哪些机器学习/数据挖掘的算法? 3.给你公司内部群组的聊天记录,怎样区分出主管和员工? 4.海量数据分布在100台电脑中,如何高效统计出这批数据的TOP10? 5.100w个数中找出最大的100个数。 6.海量日志数据,提取出某日访问百度次数最多的那个IP。 7.路段平均车速反映了路况,在道路上布控采集车辆速度,如何对路原创 2017-12-18 09:20:17 · 788 阅读 · 0 评论