大数据面试
大数据,flink,spark,mr,yarn
冥想者-定
缘起性空
展开
-
7、Hive/HiveQL常用优化方法全面总结(上篇)
目录 列裁剪和分区裁剪 谓词下推 sort by代替order by group by代替distinct group by配置调整 map端预聚合 倾斜均衡配置项 join基础优化 build table(小表)前置 多表join时key相同 利用map join特性 分桶表map join 倾斜均衡配置项 优化SQL处理join数据倾斜 空值或无...转载 2020-03-25 10:05:57 · 319 阅读 · 0 评论 -
5、hive分区分桶的区别
1.索引 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。 为什么要创建索引?Hive的索引目的是提高Hive表指定列的查询速度。没有索引时,类似'WHERE tab1.col1 = 10' 的查询,Hi...转载 2020-03-24 23:34:00 · 314 阅读 · 0 评论 -
4、hive 各种order排序的区别
1、 order by 排序,全局排序,默认升序, 只有一个reducer, 导致运行缓慢, 需要较长的计算时间。 2、 sort by 局部排序,其在数据进入reducer前完成排序,因此如果用sort by 进行排序,并且设置 maped.reduce.task?> 1 则,sort by 只能保证每个 reducer输出有序,不能保证全局有序。 3、 distribute...转载 2020-03-24 23:21:28 · 270 阅读 · 0 评论 -
4、数据仓库——五层模型架构
1. ODS 数据准备层. (ods_v8sp.event_log) 2. DWD 数据明细层.(dwd_v8sp.event_column_info_hour) 3. DWB数据汇总层.(dwb_v8sp.event_column_info_new_hour) 4. ST 数据应用层 功能: ST层面向用户应用和分析需求,包括前端报表、分析图表、KPI、仪表盘、OLAP、专题等分析,...转载 2020-03-24 15:52:47 · 3797 阅读 · 0 评论 -
3、spark shuffle原理
转:https://www.jianshu.com/p/009f325e34a2 总结 前提: 每一个job提交后都会生成一个ResultStage和若干个ShuffleMapStage 其中ResultStage表示生成作业的最终结果所在的Stage; ResultStage的task分别对应着ResultTask ShuffleMapStage的task分别对应着ShuffleMa...转载 2020-03-24 15:04:41 · 218 阅读 · 0 评论 -
2、spark-简单优化
1、 原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化 原则四:尽量避免使用shuffle类算子 原则五:使用map-side预聚合的shuffle操作 建议使用reduceByKey或者 aggregateByKey算子来替代掉groupByKey算子 原则六:使用高性能的算子 除了shuffle相关的算子有优化原则之外,其他的算...转载 2020-03-24 12:05:18 · 178 阅读 · 0 评论 -
1、spark-数据倾斜问题
数据倾斜调优, 使用各种技术方案解决不同类型的数据倾斜问题,以保证spark作业的性能。 现象: 绝大多数task执行都非常块,但是个别task执行极慢,比如总共有1000个task,997task都在1分钟内执行完成,但是剩下两三个task 需要一两个小时。 spark oom 数据倾斜发生的原理 数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某...转载 2020-03-23 22:13:20 · 192 阅读 · 0 评论