大数据开发
hhu_luqi
这个作者很懒,什么都没留下…
展开
-
Hadoop的前世今生
一. Hadoop的诞生大数据核心问题:分布式存储和分布式处理1.Google“三驾马车”——GFS、Big Table、Map Reduce2.Hadoop的核心组件——HDFS、MapReduce、Yarn二、Hadoop生态中各组件的应用场景和解决的问题1.大规模数据的交互查询Hive、Spark SQL、Impala2.基于大规模历史数据的批处理MapReduce、Hive3.基于实时数据的流处理Storm、Spark Streaming4.基..原创 2020-08-09 15:21:13 · 268 阅读 · 0 评论 -
HIVE优化实践
一、JOIN多表关联1.提前过滤——使用谓词下推使用from子句方式的语句结构(即select子句);注意:当多表关联使用inner join或left join时,主表的过滤条件可不用select子句的形式放在from后,而是放到最后的where条件里同样可使谓词下推生效。2.提前聚合在多表关联时涉及数据聚合,尽量将低粒度的子句提前聚合后再关联,而非发散关联后放到最后聚合。3.小表在前HIVE会自动将前面的小表直接放入缓存中,不用开启MAPREDUCE任务。开启map jo原创 2020-07-14 20:31:59 · 260 阅读 · 0 评论