哈工大《大数据计算基础》期末考试
留给学弟学妹们参考
题型:判断、简答、综合题
判断:10 x 2分 非常简单,记不住了
简答:4 x 5分
-
Spark RDD是什么及特点?
-
大数据算法中采样技术在哪些算法中有应用(AMS、水库采样)及如何分析?
-
HDFS写文件流程?
-
NoSQL中CAP理论是什么,能否全部实现?
综合题:60分
- 亚线性时间算法计算连通分量数的分析,3问15分(算法)
- 亚线性空间算法不重复元素数算法设计,FM算法的思想,MapReduce编程实现,以及MapReduce流程,6问30分(算法+系统)
- 高并发环境下大数据计算与管理系统的设计,4问15分(系统)
算法部分复习看课件就足够了,一般不会出太难的题。系统部分不需要完全清楚每个框架的细节,理解基本原理即可,重点在理解如何实现可扩展性、容错性、可靠性、一致性、数据如何划分、发生数据偏斜如何处理、NoSQL和NewSQL的基本理论等内容。