初面试技术(
核心点
1:关于python和hbase的 sql语句问题,hadoop和 spark 的区别 scala的闭包特性 scala的下划的作用?
2:上家单位项目或业务大数据迁移方面的问题
3:如果一个网站或系统 存在连续三天登录的人 找连续怎么处理或实现具体途径?
2:上家单位业务方面的问题
3:如果一个网站 存在连续三天登录的人 找连续怎么处理?
4.Client和Cluster提交模式的区别
5.reduceByKey和groupByKey的区别
6.Spark数据倾斜的解决方案
7.Hive和MySQL/Oracle的区别,一些SQL语句编写基础问题
8.python数据提取处理,项目中的难点及解决方案
其他
#星展ncs data engineer python 一面问题
#不一定按顺序
1. 了解Spark吗?
2. 说说Hadoop中的HDFS的作用?
3. 将文件上传到hdfs的指令?
4. Hive和其他database(Oracle,MySQL, SQLsever)的不同?
5. 如何在Hive中优化查询?
6. 如何用Hive创建分区表?
7. rowid在hive中的运用?
8. Hive中inner table和external table 的区别?
9. 有没有接触过Spark, pyspark?
10.一些sql基础题
11.一些python基础问题(例:tuple和list的区别)
关系型数据库和非关系型数据库的区别
项目中常用技术
sql的优化
内部表和外部表的区别
复试问题汇总:
1.你扮演的角色 项目情况 数据摄取 数据模型
2.数据量大概多少,文件大小大概多少,团队多少人
3.有参与过优化工作吗
4.spark参数优化
5.有做过team lead工作嘛
6.熟悉use case吗
7.有些ingest工作不是那么难,会有兴趣吗
8.airflow的特征
DATA的部门经理进行面试,主要是聊天式提问,可以放轻松。只要对他自己的CV熟悉、了解,就好。
面试官为中国人,在友邦和汇丰都待过,如果涉及到相关项目背景建议候选人实话实说