大数据
文章平均质量分 90
liu_weiliang10405
这个作者很懒,什么都没留下…
展开
-
大数据学习之Spark面试题
1. Spark 的运行流程?Spark运行流程具体运行流程如下:SparkContext 向资源管理器注册并向资源管理器申请运行 Executor资源管理器分配 Executor,然后资源管理器启动 ExecutorExecutor 发送心跳至资源管理器SparkContext 构建 DAG 有向无环图将 DAG 分解成 Stage(TaskSet)把 Stage 发送给 TaskSchedulerExecutor 向 SparkContext 申请 TaskTaskScheduler 将 T原创 2022-04-03 09:49:43 · 408 阅读 · 0 评论 -
Hive/HiveQL常用优化方法全面总结(下篇)
本文接上篇继续讲解Hive/HiveQL常用优化方法,按照目录,会从“优化SQL处理join数据倾斜”说起。优化SQL处理join数据倾斜上篇已经多次提到了数据倾斜,包括已经写过的sort by代替order by,以及group by代替distinct方法,本质上也是为了解决它。join操作更是数据倾斜的重灾区,需要多加注意。空值或无意义值这种情况很常见,比如当事实表是日志类数据时,往往会有一些项没有记录到,我们视情况会将它置为null,或者空字符串、-1等。如果缺失的项很多,在做joi原创 2022-04-03 09:43:56 · 272 阅读 · 0 评论 -
Hive/HiveQL常用优化方法全面总结(上篇)
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。由于在写的过程中发现篇幅过长,因此决定拆成上下两篇发布。上篇包含从开头到join优化的内容。目录列裁剪和分区裁剪 谓词下推 sort by代替order by group by代替distinct group原创 2022-04-03 09:41:22 · 224 阅读 · 0 评论 -
大数据学习之HDFS面试题
mapreduce工作流程:1、client提交数据到DFS,然后被分为多个split,然后通过inputformatter以key-value传给jobTraker。jobTraker分配工作给多个map(taskTraker)。project师重写map,在各个taskTraker上分别运行代码任务。做到数据不动,代码动(改革之中的一个)。真正实现代码分布式。2、tasktraker运行完代码后,将结果通过上下文收集起来,再传给reduce(也是taskTraker)。经过排序等操作,再运行pro原创 2022-04-03 09:36:29 · 299 阅读 · 0 评论