大数据面试试题汇总
仰望星空的我
仰望星空,脚踏实地。
展开
-
Hadoop/Spark相关面试问题总结
面试回来之后把其中比较重要的问题记了下来写了个总结: (答案在后面) 1、简答说一下hadoop的map-reduce编程模型 2、hadoop的TextInputFormat作用是什么,如何自定义实现 3、hadoop和spark的都是并行计算,那么他们有什么相同和区别 4、为什么要用flume导入hdfs,hdfs的构架是怎样的 5、map-reduce程序运行的时候会有什么比较常...转载 2019-03-11 10:36:57 · 162 阅读 · 0 评论 -
大数据算法面试题
1、给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url? 1) 可以估计每个文件安的大小为 50G×64=320G,远远大于内存限制的 4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 2) 遍历文件 a,对每个 url 求取 ,然后根据所取得的值将 url 分别存储到 1...转载 2019-03-11 10:34:15 · 711 阅读 · 0 评论