数仓Hive的使用指南

md_2014

已于 2024-09-10 11:42:08 修改

阅读量128

点赞数 1

文章标签： hive 数据仓库大数据

于 2024-08-21 18:15:34 首次发布

本文链接：https://blog.csdn.net/md_2014/article/details/141400174

版权

背景

在日常工作中，数据工程师常常需要将处理完毕的数据存到Hadoop的dfs上或者其他分布式数据库中，本文要介绍的是如何将数据输出到hive中，借此梳理下hive的相关操作（逐步更新板块）。

创建内(外)表

外部分区表
方案一：使用普通建表语句创建

CREATE EXTERNAL TABLE IF NOT EXISTS db.tb_name
(
    field01 string,
	field02 array<int>
)
PARTITIONED BY (dt int)
stored as parquet 
LOCATION '/path/to_path';

方案二：利用现存表结构创建，新表具有相同的分区方式

CREATE EXTERNAL TABLE IF NOT EXISTS db.new_table LIKE db.exit_table LOCATION '/path/to_path';

向已创建的表导入数据

在导入数据时，除了常用的内部表，外部表也很受大家的青睐。因为外部表有自己的特性，可以将非Hive默认数仓路径下的数据轻松挂载到hive表，而且还可以避免在删除外部表时误删数据。

导入数据至外部分区表

alter table db.tb_name add if not exists partition(dt=20230510) location '/path/to_path/dt=20230510';

上述方式不会把数据复制到hive默认数仓路径，如需复制到默认数仓路径，需使用load方式
load data inpath '/path/to_path/dt=20230510' overwrite into table db.tb_name partition(dt=20230510);

修改表的属性

修改表的location

alter table db.table set location '/path/to_new_path';

内外表之间互转

alter table db.inter_table set TBLPROPERTIES ('EXTERNAL'='TRUE');

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

md_2014

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

hive 数仓开发实战

weixin_42435657的博客

06-16

1626

对于一个公司或者组织来说，使用数据的用户可能成百上千，如何降低大家对于数据使用的沟通成本、如何通过规范大家的行为来降低使用数据的风险，这些问题是必须加以考虑的。作为新的大数据架构，数据湖采集和存储一切数据，既包含结构化的数据也包含非结构化（如语音、视频等）和半结构化的数据（如JSON 和XML 等），既包含原始数据又包含经过处理的、集成的数据。数据湖鼓励分析师和数据科学家对原始数据在分析沙箱中进行探索、研究、实验，对于有价值的数据，再和数据开发、管理团队一起将其转为更容易操作和使用的数据。

《Hive权威指南》读薄

wushuoyouting的博客

05-15

431

第三章数据类型和文件格式 Hive基本数据类型：tinyint，smalint，int，bigint，boolean，float，double，string，timestamp，binary；hive并不限制列值的长度；float和double比较会将float隐式转换为double在进行对比，有必要是会将任意整型类型转化为double类型；把字符串类型转换为数值用cast(s as int) Hive集合数据类型：struct，map，array。Struct可以混合多种不同的数据类型； H...

参与评论您还未登录，请先登录后发表或查看评论

数仓建设规范指南

过往记忆大数据

11-22

814

本文将全面讲解数仓建设规范，从数据模型规范，到数仓公共规范，数仓各层规范，最后到数仓命名规范，包括表命名，指标字段命名规范等！目录：一、数据模型架构原则数仓分层原则主题域划分原则数据模型设...

入门用Hive构建数据仓库

TONG哥的专栏

04-04

1521

在当今数据爆炸的时代，构建高效的数据仓库是企业实现数据驱动决策的关键。Apache Hive 是一个基于 Hadoop 的数据仓库工具，可以轻松地进行数据存储、查询和分析。本文将介绍什么是 Hive、为什么选择 Hive 构建数据仓库、如何搭建 Hive 环境以及如何在 Hive 中实现数据仓库的分层建模。

数据开发/数仓工程师上手指南(一)数仓概念总览

master_hunter的博客

07-24

2568

数据库设计用于支持日常业务操作和事务处理。数据结构高度规范化，注重数据的一致性和实时性。优化事务处理性能，处理频繁的读写操作。数据仓库设计用于支持数据分析和决策支持系统。数据结构非规范化，存储大量的历史数据。优化查询性能，支持复杂的多维分析和大规模数据处理。数据库(Database)数据仓库(Data Warehouse)面向事务分析数据类型细节、业务综合、清洗过的数据数据特点当前的、最新的历史的、跨时间维护目的日常操作长期信息需求、决策支持设计模型。

2021年数仓建设规范指南

a934079371的博客

11-13

360

点击上方 "大数据肌肉猿"关注,星标一起成长后台回复【加群】，进入高质量学习交流群2021年大数据肌肉猿公众号奖励制度本文将全面讲解数仓建设规范，从数据模型规范，到数仓公共规范，数仓各层...

最强最全面的数仓建设规范指南

yuan_more的博客

11-11

4339

目录一、数据模型架构原则 1. 数仓分层原则 2. 主题域划分原则 3. 数据模型设计原则二、数仓公共开发规范 1. 层次调用规范 2. 数据类型规范 3. 数据冗余规范 4. NULL字段处理规范 5. 指标口径规范 6. 数据表处理规范 7. 表的生命周期管理三、数仓各层开发规范 1. ODS层设计规范 2. 公共维度层设计规范 3. DWD明细层设计规范 4. DWS公共汇总层设计规范四、数仓命名规范 1. 词根设计规范 2. 表命名规范 3. 指标命

hive快速学习指南

大数据指北

03-11

448

文章目录前言一、Hive基本概念1.1 什么是Hive1.2 Hive的优缺点1.3 Hive架构原理1.4 Hive运行机制二、Hive的操作2.1 Hive表——内部表、外部表、分区表的创建2.2 将数据文件加载(导入)到Hive表中三、Hive函数3.1 系统内置函数：3.2 系统内置常用函数：3.3 自定义函数3.4 自定义UDF函数3.5分析函数3.6 转列函数四、综合案例4.1 利用HQL去做统计总结前言 Hive数据仓库在Hadoop的生态家族中占有及其重要的地位，并且实际的业务当中用的也

基于Hadoop的数据仓库Hive 学习指南

行走的IT

11-24

1502

一、Hive简介 Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。 Hive是一个可以提供有效的、合理的且直观的组织和使用数据的模型，即使对于经验丰富的Java开发工程师来说，将这些常见的数据运算对应到底层的MapReduce Java

【大数据之路5-3】离线数据仓库（Hive 搭建）

程序员五哥

06-09

780

数据仓库（Data Warehouse），简写为DW或DWH，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业提供指导业务流程改进、监视时间、成本、质量及控制。

《Hive编程指南》第一章

废料生产地

08-08

411

第一章基础知识数据是了解用户、提高业务在市场上表现、提高基础架构效率的资源。 Hadoop生态系统是为大数据集产生的解决方案，实现了一个计算模型MapReduce，它可以将计算任务分割成多个处理单元，分散到一群家用或服务器级别的硬件机器上。 Hive的存在意义用户从现有的基于传统关系的数据架构转移到Hadoop上时，Hive提供给sql用户利用HQL查询存储在Hadoop集群中的数据。 Hive将大多数查询转换为MapReduce任务（job），使用户不需要接触到底层的API。说人话：使用Ha

使用groupingsets函数优化数仓离线计算性能表现、原理分析及避坑指南

a80090023的专栏

02-28

2152

1.上线该优化后任务性能表现任务执行时长：任务一：该任务为wps_android国内应用的天任务耗时截图，执行时长缩短3-4倍。该任务是天任务中最长的任务，也就是说以现在的任务流程部署情况，整体天任务执行时长缩短3倍以上。任务二：该任务为国内应用的周任务耗时截图，执行时长缩短3-4倍。任务三：该任务为数仓单个子任务中耗时最长的任务（30天活跃任务），执行时间缩短5-6倍。其中任务的执行时间包括执行hive sql查询的时间+数据写入RDS的时间。任务四：该任务为数仓月任务..

数仓建设规范

爱吃辣条的博客

02-04

1419

离线数仓建设规范

Hadoop服务端口号、Spark端口号、Hive端口号以及启动命令

m0_70882914的博客

10-09

266

Hadoop服务端口号、Spark端口号、Hive端口号以及启动命令

JavaWeb(Servlet编程)第二章

最新发布

2302_80464795的博客

10-09

417

对于之前的doGet()方法和doPost()方法，我给大家分享一个我的记忆方法，在Servlet类当中我们要重写这些方法但是在重写的时候会不知道重写哪个方法，我的理解是如果没有参数的传递也就是在前后端之间没有使用form表格或者传递参数，那么就使用doGet()方法，如果涉及到参数的接收，也就是使用form表单把数据从前端页面传递到后端数据中涉及到参数的接收传递，那么我们就要在后端Servlet类中重写doPost()方法。这是我的个人见解如果有不对的地方欢迎大家指正我，勿喷喵!

IT研究室的博客

10-09

1068

随着互联网技术的快速发展，视频内容消费已经成为当代文化娱乐的重要组成部分。特别是在年轻一代中，视频平台如B站（哔哩哔哩）的兴起，极大地丰富了人们的日常生活和信息获取方式。B站作为一个涵盖动画、音乐、舞蹈、游戏、科技等多个领域的弹幕视频分享平台，其用户群体庞大，内容创作活跃，已经成为中国互联网文化的重要代表之一。据相关数据显示，B站的月活跃用户已经超过2亿，其中大部分用户是年轻人。例如，通过对视频数据的分析，可以了解到哪些类型的视频更受欢迎，哪些UP主拥有更高的人气，以及观众的观看习惯和互动模式等。

Hive数仓操作（十六）

m0_58076578的博客

10-05

5243

Hive的DML语句一、插入操作INSERT 一般不会单条或几行插入，使用多表复制即可二、更新操作UPDATE 和删除操作 DELETE 数仓中的数据存在即有意义，一般不会进行更新和删除操作，虽然公司不用但一般都有这些功能，了解即可，反正我没用过更新和删除操作的条件表必须为分桶表：表格需要使用分桶（Bucketing），这可以提高数据的管理和查询效率。数据存储格式：表格的数据必须存储为 ORC 格式，而不能是文本格式。ORC 格式支持 ACID 操作的事务特性。事务支持：表格必须启用

Oracle 19C archivelog 还是不可以pdb级别设置， standby db可以

jnrjian的博客

10-03

668

Oracle Database - Enterprise Edition - Version 12.1.0.1 and later Oracle Database Cloud Schema Service - Version N/A and later Oracle Database Exadata Express Cloud Service - Version N/A and later Oracle Database Exadata Cloud Machine - Version N/A and lat

实时数仓选型指南：OLAP引擎全面对比

"这篇文章主要探讨了实时数仓建设中OLAP引擎的重要性，提到了多个开源OLAP引擎，如Hive、Hawq、Presto、Kylin、Impala、SparkSQL、Druid、Clickhouse和Greenplum，并强调了在技术选型时需结合业务需求。文章还通过...