Hive
Hive
嘻哈吼嘿呵
这个作者很懒,什么都没留下…
展开
-
Hive/HiveSQL常用优化方法全面总结
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化,也包含Hive配置项和MR方面的调整。 目录 列裁剪和分区裁剪 谓词下推 sort by代替order by ...转载 2019-09-06 16:11:28 · 1624 阅读 · 0 评论 -
Hive使用必知必会系列
一、Hive的几种数据模型 内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse) 外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分开存储,提高查询效率,分区-----> 目录) 桶表 (...转载 2019-09-06 13:19:06 · 189 阅读 · 0 评论