1. 熟悉python开发语言,熟悉hive/hadoop等分布式计算技术,熟悉其运行机制和体系结构,有MR作业编写经验优化。
hadoop复习
分布式算法
hadoop项目复习
hive sql编译过程复习
参考美团
https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.html
SQL转化为MapReduce的过程
了解了MapReduce实现SQL基本操作之后,我们来看看Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段:
1、Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree
2、遍历AST Tree,抽象出查询的基本组成单元QueryBlock
3、遍历QueryBlock,翻译为执行操作树OperatorTree
4、逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量
5、遍历OperatorTree,翻译为MapReduce任务
6、物理层优化器进行MapReduce任务的变换,生成最终的执行计划
MR项目复习
hive架构、hive的三种join
https://www.cnblogs.com/erlou96/p/13599964.html
2. 灵活运用SQL实现海量数据ETL加工处理 ,有较好的SQL性能调优经验;
***Hivesql复习(窗口函数、分析函数)***
select credit_type,count(credit_type) as peoplenum from customer_details
group by credit_type order by peoplenum desc limit 1
等于
select credit_type,count(credit_type) as peoplenum from customer_details
group by credit_type distribute by credit_type sort by peoplenum desc limit 1
hive性能优化
3. 思路清晰,对数据敏感,有良好的沟通表达能力和跨团队协作能力 ;
介绍一下票据雷达???
4. 有一定的数据分析和挖掘能力,能从海量数据提炼核心结果,及时发现和分析其中隐含的变化和问题,有数据分析、挖掘、清洗、建模和BI分析的经验优先;
反电诈?
任务红包?
5. 熟悉数据仓库领域知识和技能者优先,包括但不局限于:数据集市设计、元数据管理、数据质量、主数据管理
三范式,能举出例子,结合公司里的内容
数据集市共建文档
看点公众号