笔试题
文章平均质量分 80
大数据学习与分享
【微信公众号:大数据学习与分享】专注于大数据领域常用技术,如Spark、Hadoop、Hive、HBase、Kafka、Zookeeper等技术的使用、实战技巧、源码解读,语言主要以Java和Scala为主
展开
-
高级大数据研发工程师面试题总结
1.Spark处理数据流程、并行度决定机制2.SparkSQL解析SQL的详细流程、hash广播底层实现3.Spark shuffle、shuffle文件4.groupByKey、reduceByKey、aggregateByKey、combineByKey区别5.repartition和coalesce区别6.Spark内存管理模型7.Spark中能够进行下推的算子和不能进行下推的算子有哪些?谓词下推?映射(project)下推?8.数仓数据的存储格式(parquet+snappy),为什么原创 2021-06-04 09:31:03 · 3206 阅读 · 0 评论 -
经典的SparkSQL/Hive-SQL/MySQL面试-练习题(二)
第十题存在如下表:table student(s_id string, s_name string, s_birth string, s_sex string) table course(c_id string, c_name string, t_id string) table teacher(t_id string, t_name string) table score(s_id string, c_id string, s_score int)示例数据:student:01 赵雷 1原创 2020-11-16 09:05:15 · 485 阅读 · 0 评论