hive 怎么调整分桶数

塞上江南o

已于 2024-01-03 11:13:18 修改

阅读量587

点赞数 1

分类专栏： Hive 文章标签： hive

于 2019-12-02 19:03:08 首次发布

本文链接：https://blog.csdn.net/qq_43192537/article/details/103354530

版权

Hive 专栏收录该内容

46 篇文章 4 订阅

订阅专栏

文章目录

1）先把原来的表结构给查询出来

show create  table `stg.stg_cccc_pm_pj_position_i_d`;

create  table `stg.stg_cccc_pm_pj_position_i_d`(
  `id` string DEFAULT NULL COMMENT '主键', 
  `flag` string DEFAULT NULL COMMENT '数据状态标识'
)
comment '项目管理_工程部位'
partitioned by (etl_date string comment '分区字段')
clustered by (id) into 3 buckets 
stored as orc;

2）在原来的表名上添加_tmp后缀

create  table `stg.stg_cccc_pm_pj_position_i_d_tmp`(
  `id` string DEFAULT NULL COMMENT '主键', 
  `flag` string DEFAULT NULL COMMENT '数据状态标识'
)
comment '项目管理_工程部位'
partitioned by (etl_date string comment '分区字段')
clustered by (id) into 3 buckets 
stored as orc;

3）从旧表中查询数据，装载到新表

# 开启动态分区
set hive.exec.dynamic.partition=true; 
set hive.exec.dynamic.partition.mode=nonstrict;

insert into stg.stg_cccc_pm_pj_position_i_d_tmp partition(etl_date)
select * from stg.stg_cccc_pm_pj_position_i_d;

4）删除旧表

drop table stg.stg_cccc_pm_pj_position_i_d;

5）把_tmp后缀名给去掉

alter table stg.stg_cccc_pm_pj_position_i_d_tmp  rename to stg.stg_cccc_pm_pj_position_i_d ;

6）瞧一眼数据

select * from stg.stg_cccc_pm_pj_position_i_d

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

塞上江南o

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
hive 怎么调整分桶数

hive 怎么调整分桶数
复制链接

扫一扫

专栏目录

hive 修改分桶数分桶表_hive选择分桶字段和计算分桶的正确方法

weixin_42327743的博客

02-15

2423

运维开发网 https://www.qedev.com2020-05-09 16:23出处：网络一、选出合理的分桶字段。可以拿 (字段中重复值最多的记录数/表的总记录数) 的值作为是否可以作为分桶字段的依据。 ?查询字段中重复值最多的记录数： COL_COUNT=select column1，count(1)cnt from table_name group by column1 ...

常用的NoSQL数据库

diaolove的博客

01-11

7419

文章目录前言一、缓存/键值数据库（Memcached、redis）MemcachedRedis二、文档型数据库（mongoDB）特点三、列族数据库（HBase、Cassandra）四、图关系数据库（Neo4j）五、数据库排名前言关系型数据库产品很多，如 MySQL、Oracle、Microsoft SQL Sever 等，但它们的基本模型都是关系型数据模型。非关系型数据库又称为：NoSQL ，没有统一的模型，而且是非关系型的。常见的 NoSQL 数据库包括键值数据库、列族数据库、文档数据库和图形数

1 条评论您还未登录，请先登录后发表或查看评论

hive基本操作

qq_43592674的博客

10-27

250

启动Metastore server hive --service metastore & 启动hive server2 hive --service hiveserver2 & 查看所有的数据库 show databases; 查看当前库中所有的表 show tables; 查看表中所有的数据 select * from table_name; hive数据类型结构体键值对数组创建数据库 create (data|shema) [if not exists] dat

数据推断期望_数据权利：消费者期望透明和即时访问其个人信息

weixin_26644585的博客

09-06

315

数据推断期望Personal data is the lifeblood of the modern internet businesses, which can tailor services to our finances, our bodies, our politics and our social lives. Months of lockdown has meant we’ve nev...

hive查看表中列的信息命令_疯狂Hive之DDL操作二（三）

weixin_39750410的博客

11-19

298

分区表创建在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition分区概念分区表指的是在创建表的时候指定的partition的分区空间。一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。表和列名不区分大小写。分区是以字段的形式在表结构中存在，通过describe tabl...

大数据任务调度器 —— Azkaban 3.0 部署与简单应用

JIE的博客 --- moon_coder

04-08

1388

Azkaban 是一个分布式的工作流程管理器，在 LinkedIn 实现，用于解决 Hadoop 作业依赖问题，处理需要按顺序运行的作业，从 ETL 作业到数据分析产品。

05--Hive的动态分区和分桶1

08-03

注意，分桶表的性能优化依赖于正确的桶数选择，过多或过少的桶都可能影响性能。同时，创建大量桶可能会导致文件数量过多，对HDFS的元数据管理造成压力。因此，在实际应用中，应根据数据规模和查询需求合理调整分桶...

Hive案例数据集.rar

最新发布

10-27

- 配置调整：根据硬件环境和业务需求调整Hive的相关配置参数。七、Hive与其他组件的集成 Hive可以无缝集成Hadoop生态系统中的其他组件，如HDFS、HBase、Spark等。例如，Hive可以作为Spark SQL的接口，利用Spark的...

Hive查询优化整理与Hive简易版思维导图

04-30

3. **配置调优**：根据集群资源和任务特性调整Hive的配置参数，如mapred.tasktracker.map.tasks.maximum、hive.exec.parallel等。四、Hive简易版思维导图这个思维导图可能包含了Hive的基本概念、重要组件、查询...

Hive用户指南

06-10

3. **数据存储**：Hive将数据存储在HDFS上，采用分桶、分区等策略优化查询性能。 4. **基本操作** - **创建表**：包括创建普通表、分区表，支持多种数据类型和表属性。 - **Alter Table**：允许添加分区、删除...

azkaban 3.4 编译后安装文件，分布式多executor（赠送安装文档）

04-03

azkaban3.4 安装包，赠送安装文档，可搭建分布式多 executor 节点的资源调度。

hive常用优化方法大全共2页.pdf.zip

10-28

7. **使用Bucketing和Sorting**：Bucketing按照特定列的哈希值将数据分桶，Sorting则按列排序，能提高JOIN效率和查询性能。 8. **选择合适的执行引擎**：Tez和Spark相比MapReduce提供了更高的并行度和性能。对于...

hive分桶管理

freefish_yzx的博客

08-13

8788

按照用户创建表时指定的分桶字段进行hash散列多个文件分桶表和分区表的桶数和分区数的决定机制：分桶表的个数：由用户的HQL语句所设置的reduceTask的个数决定表的分区的个数：也能由用户自定义指定。也能由程序自动生成，分区是可以动态增长的分桶表和分区表的个数的区别：分桶表是一经决定，就不能更改，所以如果要改变桶数，要重新插入分桶数据分区数是可以动态增长的 log日志一天存一个分区分桶表和分区表中数据的表现： 1、分桶表中的每个分桶中的数据可以有多个key值 2、分区表中

1.Azkaban分布式部署之azkaban-web-server

liumu243的博客

07-30

1703

Azkaban三种模式部署

热门推荐

王佩的CSDN博客

03-11

1万+

简介 Azkaban是LinkedIn开源的任务调度框架，类似于JavaEE中的JBPM和Activiti工作流框架。如ETL的过程，Sqoop在凌晨1点从RDBMS中抽取数据(E)，在凌晨2点用Hadoop或Spark转换数据(T)，在凌晨3点用Sqoop再把结果数据加载(L)进RDBMS或NOSQL,假设没有Azkaban这样的调度框架，一般用crontab+shell,但cro

2.Azkaban分布式部署之azkaban-exec-server

liumu243的博客

07-30

1517

Azkaban 的三种部署模式是什么？

Shockang的博客

07-05

1万+

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文在 3.x 版本中， Azkaban 提供 3 种部署模式: 轻量级的 solo server mode (独立服务器模式)、重量级的 two server mode (双服务器模式)和 distributed multiple-executor mode (分布式多执行器模式)。接下来，针对这 3 种

Azkaban 3.x 实战部署整理

LiuKingJia的博客

03-02

270

一、Azkaban服务部署模式（1）solo-server模式使用的DB是azkaban包自带一个内嵌的H2库，Web Server和Executor Server运行在同一个进程里。这种模式包含Azkaban的所有特性，但一般用来学习和测试。（2）two-server模式 DB使用的是MySQL，MySQL支持master-slave架构，Web Server和Execut...

azkaban多节点部署安装记录

zld_555的博客

06-27

2671

环境准备 jdk8+ mysql 节点划分 centosx1 centosx2 centosx3 web-server exe-server exe-server mysql 这里编辑了hosts文件,关闭了selinux和firewalld [root@centos7x3 azkaban-exec-server]# cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localho

hive分桶数量计算方式

06-13

Hive中的分桶是一种数据分区技术，它将数据按照指定的列进行哈希分桶存储，可以加快查询性能。分桶的数量需要根据数据量、查询模式和集群硬件等因素进行计算。一般来说，分桶的数量应该是集群节点数或者节点数的...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交