Hive
隐于花海,等待花开
这个作者很懒,什么都没留下…
展开
-
内部表(管理表)和外部表
内部表也称为管理表,数据是存放在表中的,删除表后 表中数据会同步删除。常见于明细层表 应用层表等。如DM层 APP层,一般是通过SQL语句从其他表中抽取的数据。外部表,建表时有external关键字,数据是从外部以文件的形式加载进表中,删除表后 数据文件依然存在,只是删除了该表的元数据信息。常见于贴源层表,如ODS层, 一般是直接加载上游系统推送过来的的数据文件。查看一个表是内部表或外部表,可用describe extended tablename(表名),若tableType后显示managed_t原创 2022-06-07 09:17:44 · 1280 阅读 · 0 评论 -
Hive优化参考
1、开启负载均衡set hive.map.aggr=true; set hive.groupby.skewindata=true;2、join优化join时,将最大的表放在join语句的最右边使用map join让小的维度表(1000条以下的记录条数)先进内存,在map端完成reduce。3、严格模式,设置严格模式可以禁止3种查询类型strict场景:表中数据及分区个数都非常大,执行一个包含所有分区的查询会触发巨大的MapReduce任务,非常耗时耗资源。此时,将hive设置为“strict”模原创 2021-08-17 10:08:06 · 164 阅读 · 0 评论