面试准备

1. 熟悉python开发语言,熟悉hive/hadoop等分布式计算技术,熟悉其运行机制和体系结构,有MR作业编写经验优化。

hadoop复习
分布式算法

hadoop项目复习
hive sql编译过程复习
参考美团
https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.html
SQL转化为MapReduce的过程
了解了MapReduce实现SQL基本操作之后,我们来看看Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段:
1、Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree
2、遍历AST Tree,抽象出查询的基本组成单元QueryBlock
3、遍历QueryBlock,翻译为执行操作树OperatorTree
4、逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量
5、遍历OperatorTree,翻译为MapReduce任务
6、物理层优化器进行MapReduce任务的变换,生成最终的执行计划
MR项目复习
hive架构、hive的三种join
https://www.cnblogs.com/erlou96/p/13599964.html

2. 灵活运用SQL实现海量数据ETL加工处理 ,有较好的SQL性能调优经验;

***Hivesql复习(窗口函数、分析函数)***

select credit_type,count(credit_type) as peoplenum from customer_details
group by credit_type order by peoplenum desc limit 1

等于

select credit_type,count(credit_type) as peoplenum from customer_details
group by credit_type distribute by credit_type sort by peoplenum desc limit 1

hive性能优化

3. 思路清晰,对数据敏感,有良好的沟通表达能力和跨团队协作能力 ;

介绍一下票据雷达???

4. 有一定的数据分析和挖掘能力,能从海量数据提炼核心结果,及时发现和分析其中隐含的变化和问题,有数据分析、挖掘、清洗、建模和BI分析的经验优先;

反电诈?
任务红包?

5. 熟悉数据仓库领域知识和技能者优先,包括但不局限于:数据集市设计、元数据管理、数据质量、主数据管理

三范式,能举出例子,结合公司里的内容
数据集市共建文档
看点公众号

面经
https://mp.weixin.qq.com/s/pwyus1xfX7QAz5MtecveZw

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值