1.自我介绍
2.hive sql的执行流程
3.map reduce的原理。
4.spark的提交参数有那些命令
5.spark rdd, dataframe, dataSe解释一下。
6.clickhouse怎么建表的,什么是分表
7.搭建采集过程遇到的问题,关于组件信息
8.分桶表和分区表的区别,分桶表的设计未来解决什么问题。
9.datax用来干什么的,datax是用什么语言编写的。
10.redis用过吗,在项目中用来干什么。
在回答分桶表的时候,我在思考,其实我可以干脆说自己不清楚,没用过。
在回答clickhouse的分表概念时,我也是一样不清楚
在回答spark rdd的原理时,我也一样没记住。以及spark的参数提交命令。这些面试题上都有的东西我都没记住。我不禁想,学gbase有什么用,还不如敲敲过去的代码,起码找工作会用到,这些类似的国产数据库学了用不到,跟学hbase有什么区别。
都是基础,一问三不知。