面试准备

最新推荐文章于 2024-04-23 00:39:17 发布

qiyong7578

最新推荐文章于 2024-04-23 00:39:17 发布

阅读量82

点赞数

分类专栏：面经文章标签：大数据

本文链接：https://blog.csdn.net/qiyong7578/article/details/109914284

版权

面经专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1. 熟悉python开发语言，熟悉hive/hadoop等分布式计算技术，熟悉其运行机制和体系结构，有MR作业编写经验优化。

hadoop复习
分布式算法
hadoop项目复习
~~hive sql编译过程复习~~
参考美团
https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.html
SQL转化为MapReduce的过程
了解了MapReduce实现SQL基本操作之后，我们来看看Hive是如何将SQL转化为MapReduce任务的，整个编译过程分为六个阶段：
1、Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree
2、遍历AST Tree，抽象出查询的基本组成单元QueryBlock
3、遍历QueryBlock，翻译为执行操作树OperatorTree
4、逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量
5、遍历OperatorTree，翻译为MapReduce任务
6、物理层优化器进行MapReduce任务的变换，生成最终的执行计划
MR项目复习
~~hive架构、hive的三种join~~
https://www.cnblogs.com/erlou96/p/13599964.html

2. 灵活运用SQL实现海量数据ETL加工处理，有较好的SQL性能调优经验；

~~***Hivesql复习（窗口函数、分析函数）***~~

select credit_type,count(credit_type) as peoplenum from customer_details
group by credit_type order by peoplenum desc limit 1

等于

select credit_type,count(credit_type) as peoplenum from customer_details
group by credit_type distribute by credit_type sort by peoplenum desc limit 1

hive性能优化

3. 思路清晰，对数据敏感，有良好的沟通表达能力和跨团队协作能力；

介绍一下票据雷达？？？

4. 有一定的数据分析和挖掘能力，能从海量数据提炼核心结果，及时发现和分析其中隐含的变化和问题，有数据分析、挖掘、清洗、建模和BI分析的经验优先；

反电诈？
任务红包？

5. 熟悉数据仓库领域知识和技能者优先，包括但不局限于：数据集市设计、元数据管理、数据质量、主数据管理

三范式，能举出例子，结合公司里的内容
数据集市共建文档
~~看点公众号~~

面经
https://mp.weixin.qq.com/s/pwyus1xfX7QAz5MtecveZw

qiyong7578

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
面试准备

1. 熟悉python开发语言，熟悉hive/hadoop等分布式计算技术，熟悉其运行机制和体系结构，有MR作业编写经验优化。hadoop复习hadoop项目复习hive sql编译过程复习参考美团https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.htmlMR项目复习2. 灵活运用SQL实现海量数据ETL加工处理，有较好的SQL性能调优经验；Hivesql复习（窗口函数、分析函数）hive性能优化3. 思路清晰，对数据敏
复制链接

扫一扫