自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 字节抖音大数据开发校招面经总结

翻了一些牛客上的字节面经,对常见面试题做了下总结~Spark部分1、Spark中Stage、Executor、Task都是干嘛的?2、Spark 数据倾斜3、spark为什么比mr快?4、Spark的stage的划分是怎么划分的?5、介绍一下 Spark RDD、DataFrame、DataSet6、Spark的窄依赖和宽依赖7、DAG Scheduler作用8、Spark中有哪些算子会进行shuffle,有哪些不会进行shuffle9、union可以形成宽依赖吗?10、Spark 作业调度11、Spark

2020-11-04 17:10:21 2469 3

原创 Hive中的Sort Merge Bucket Join

最近学习时发现 Hive 中还有一种 SMB Join,即 Sort Merge Bucket Join ,赶紧找资料学习了一波。。map join我们知道在 Hive 中当小表 join 大表时可以通过 map join 将小表中的数据读入内存,在 map 端 join 大表,从而省略 reduce 过程,大大加快连接的速度,但是当小表数据量过大内存放不下时就无法使用 map join 了,由此引出了 Sort Merge Bucket Join。SMB join要使用 SMB Join,所有的表

2020-11-02 23:05:57 1030

原创 大数据岗位校招Hadoop面试总结

继上一篇Spark相关的面试问题,本篇总结一下Hadoop相关的面试问题,由于Hadoop相关的问题大多涉及到原理及运行流程,内容较多较复杂,因此本篇以罗列问题为主,详细答案参考各种工具书和大佬们的博客~HDFS 默认的副本数?如果想修改副本数怎么修改HDFS 的文件结构租约管理第一关系管理及第二关系管理NameNode中的集中式缓存管理HDFS 写文件如何保证正确性及零拷贝模式HDFS读取、写入过程checkpoint流程HDFS的各节点之间如何通信MapReduce过程MapReduce1工作机制、比较

2020-11-01 19:58:35 740 1

原创 大数据岗位校招Spark面试总结

这里写目录标题1、Spark基本概念2、Spark运行架构特点3、Spark运行流程4、Spark on yarn—cilent 和 on yarn—cluster 的区别5、Spark 怎样划分stage和task6、stage的调度与task的调度7、静态资源申请与动态资源申请8、Spark内存管理机制9、Spark standalone模型10、Spark开发调优11、Spark数据倾斜及调优12、Spark里面有哪些参数可以设置,有什么用13、Spark shuffle参数调优14、Spark 持

2020-11-01 14:20:32 465

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除