1.为什么用zookeeper
2.spark  Shuffle机制?
3.sortShuffle与HashShuffle区别是什么?
4.spark中的RDD的Partition数是由什么决定的?
5.Direct和Receiver的区别在哪?
6.spark内存模型是怎样的?
7.checkpoint是怎么做的,或者说使用在什么地方?
8.数据仓库模型是怎样的?
9.简单介绍下flink任务提交流程
10.你们数据传输之间的接口大体是如何设计的?
11.scala和java有什么区别?
12.spark有什么可优化的点
13.spark集群是基于什么模式?
14.假如Executor内存是10个G,也配置了off-heap,这时候出现了oom问题,除了增大executor内存之外,还有没有其他的解决方法?
15.对于2T的数据,在spark-submit提交参数中,executor个数,内存和CPU的个数是怎么样的一个配置标准?
16.使用git时,之前的1.0版本正在运行,出现了bug,现在正在开发2.0版本,这个时候应该怎么做?
17.DataFrame与SQL比有什么优势?
18.A LeftJoin B    A假如有100行,join之后结果有没有可能超过100行?
19.原始数据有用户,订单id,金额,要对这数据进行groupby,这个过程要执行多少个任务,及怎样的一个执行步骤
20.在spark任务提交的过程中task数是由什么来决定的
21.spark core中提供了哪些核心加载函数
22.mapPartition和map算子相比,具体优化了哪些点?
23使用Avg()对金额求平均,执行了多少个动作,怎么执行的?怎么提高求平均值的速度?
24.时间窗口函数如何做到这个时间的窗口值依赖上个时间的窗口值
25.flume配置需要关注哪些点?
26.flink中KeyBy做词分组,是怎样的一个模式
27.JVM调优
28.oom如何处理
29.jvm有哪几种配置模式,假如JVM配置了G1模式,会有年轻代吗
30.jstat查看进程命令
31.kafka0.8版本的offset存在哪里
32.在资源有限的情况下,一万维的矩阵乘以一万维的矩阵应该怎么处理?

 

spark和hive:

今天整理时,突然发现,上面这些问题有大部分,我都总结过,公众号文章有写,公众号文章没有写的,我自己也有私下的笔记:

哈哈,这块就先写到这里吧,如果有问题需要讨论的可以私信我

1.2 项目相关,难点,仓库建模

关于项目这块,真的就很难说,因为不同的公司,项目也不一样,面对的问题也总不相同。 总体的原则就是一定要突出自己的亮点,先介绍项目大框架,再详细深入自己负责的模块。

关于仓库建模部分,不能只照搬照背理论,一定要结合实际案例说话。

项目

  • 说说项目中你做的比较有价值的东西
  • 你说你做过字段血缘,难点是什么?怎么实现?(这个问题,是因为我项目中写了做字段血缘:数仓字段血缘解析实现—hive版

建模:

有关这里的一些点,后续,我也准备逐个总结成文章,一方面为大家后面要面试的同学提供思路,另一方面也能提高自己

 

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值