2020年11月_vegetable chicken01

11月 10月 04月 03月 02月 01月

原创字节抖音大数据开发校招面经总结

翻了一些牛客上的字节面经，对常见面试题做了下总结~Spark部分1、Spark中Stage、Executor、Task都是干嘛的？2、Spark 数据倾斜3、spark为什么比mr快？4、Spark的stage的划分是怎么划分的？5、介绍一下 Spark RDD、DataFrame、DataSet6、Spark的窄依赖和宽依赖7、DAG Scheduler作用8、Spark中有哪些算子会进行shuffle，有哪些不会进行shuffle9、union可以形成宽依赖吗？10、Spark 作业调度11、Spark

2020-11-04 17:10:21 2469 3

原创 Hive中的Sort Merge Bucket Join

最近学习时发现 Hive 中还有一种 SMB Join，即 Sort Merge Bucket Join ，赶紧找资料学习了一波。。map join我们知道在 Hive 中当小表 join 大表时可以通过 map join 将小表中的数据读入内存，在 map 端 join 大表，从而省略 reduce 过程，大大加快连接的速度，但是当小表数据量过大内存放不下时就无法使用 map join 了，由此引出了 Sort Merge Bucket Join。SMB join要使用 SMB Join，所有的表

2020-11-02 23:05:57 1030

原创大数据岗位校招Hadoop面试总结

继上一篇Spark相关的面试问题，本篇总结一下Hadoop相关的面试问题，由于Hadoop相关的问题大多涉及到原理及运行流程，内容较多较复杂，因此本篇以罗列问题为主，详细答案参考各种工具书和大佬们的博客~HDFS 默认的副本数？如果想修改副本数怎么修改HDFS 的文件结构租约管理第一关系管理及第二关系管理NameNode中的集中式缓存管理HDFS 写文件如何保证正确性及零拷贝模式HDFS读取、写入过程checkpoint流程HDFS的各节点之间如何通信MapReduce过程MapReduce1工作机制、比较

2020-11-01 19:58:35 740 1

原创大数据岗位校招Spark面试总结

这里写目录标题1、Spark基本概念2、Spark运行架构特点3、Spark运行流程4、Spark on yarn—cilent 和 on yarn—cluster 的区别5、Spark 怎样划分stage和task6、stage的调度与task的调度7、静态资源申请与动态资源申请8、Spark内存管理机制9、Spark standalone模型10、Spark开发调优11、Spark数据倾斜及调优12、Spark里面有哪些参数可以设置，有什么用13、Spark shuffle参数调优14、Spark 持

2020-11-01 14:20:32 465

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 字节抖音大数据开发校招面经总结

原创 Hive中的Sort Merge Bucket Join

原创 大数据岗位校招Hadoop面试总结

原创 大数据岗位校招Spark面试总结

空空如也

空空如也

原创字节抖音大数据开发校招面经总结

原创大数据岗位校招Hadoop面试总结

原创大数据岗位校招Spark面试总结