Micheal_Yi-CSDN博客

原创 hive复制表

Hive中如何快速的复制一张分区表（包括数据）关键字：Hive 复制表Hive中有时候会遇到复制表的需求，复制表指的是复制表结构和数据。如果是针对非分区表，那很简单，可以使用CREATE TABLE new_table AS SELECT * FROM old_table;那么如果是分区表呢？首先想到的办法可能是：先创建一张和old_table结构相同的new_table，包括分区；可以使用CREATE TABLE new_table LIKE old_table;接下来使用动态分区，把old

2021-01-14 09:23:04 1767

原创 hive动态分区遇见的问题记录

项目场景：将hbase数据卸出到hive分区表：项目场景：按省份分区（36个分区），数据量50亿，数据大小4T左右使用动态分区时首先不要忘记的一些配置：是否开启动态分区 hive.exec.dynamic.partition动态分区是否使用严格模式 hive.exec.dynamic.partition.modeMR总共可创建最大分区数 hive.exec.max.dynamic.partition.partitions （默认1000）以及当前节点可创建的最大分区数 hive.exec.ma

2020-10-27 10:37:30 689

原创 [Hive优化]--实际生产中常用参数优化汇总

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档HIve优化使用动态分区需要加配置：使用自动优化：（mapjoin）使用负载均衡：设置map和reduce的任务处理的字节数直接设置map和reduce任务数设置最大reduce数限制修改字段类型（注意跟presto集成会有问题）设置运行内存，应对运行时报错：java 堆内存溢出使用动态分区需要加配置：SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partitio

2020-10-26 10:22:02 386 1

原创 HIve动态分区实际操作

Hive 根据表中某个字段动态分区1.what这个技术是什么官方文档定义Apache Spark™ is a unified analytics engine for large-scale data processing. 就是大数据分析引擎，至于unified（统一），应该是因为下图。Combine SQL, streaming, and complex analytics.Spark powers a stack of libraries including SQL and DataFram

2020-10-19 13:41:35 270

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人