hive
文章平均质量分 78
不管大小写
过去即是将来的根基
展开
-
HIVE使用优化总结
Hive使用注意点(1)尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表加上分区判断过滤不需要处理的数据。(2)分区表关联在on条件上加上分区判断,否则会扫全表。(3)避免一个SQL包含复杂逻辑,可以借助中间表来完成复杂的逻辑。(4)建议使用外部表,防止误删表时删除数据;对于中间表可使用内部表的方式。splitsize大小--切片大小( mapred.max.split.size 和mapre...原创 2018-07-11 16:21:40 · 203 阅读 · 0 评论 -
HIVE基础表操作
一,建表&修改表(DDL)CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name ...原创 2018-07-11 16:41:54 · 1205 阅读 · 0 评论 -
Hive使用常见问题
1)内存溢出map阶段解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。shuffle阶段解决:增加reduce数(set mapreduce.job.reduces=xxx)或调整放在内存里的最大片段所占百分比(set mapreduce.reduce.shuffle.memory.limit.p...原创 2018-07-11 17:57:25 · 3455 阅读 · 2 评论 -
hive较为全面总结
转载自:https://blog.csdn.net/haojun186/article/details/79775651. HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟...转载 2018-08-11 17:08:55 · 5183 阅读 · 0 评论 -
Hive使用常见问题&&优化
1)内存溢出map阶段解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。shuffle阶段解决:减少每个reduce处理的数据量,调整参数:hive.exec.reducers.bytes.per.reducer,默认300000000。或调整放在内存里的最大片段所占百分比(set mapr...原创 2018-08-27 22:24:30 · 18388 阅读 · 0 评论