Hive实操

本文详细介绍了Hive在数据仓库中的应用,包括数据仓库与数据库的区别、数仓的分层架构、ETL和ELT策略,以及数据库操作如创建、删除库,表的语法和数据类型,内部表与外部表的区别,以及数据加载和导出的方法。
摘要由CSDN通过智能技术生成

一、数据仓库和数据库

数仓和数据库的区别

在这里插入图片描述

  • 数据仓库主要特征:
  • 面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant )
数据仓库数据库
面向事务的设计面向主题设计的
存储业务数据存储历史数据
为捕获数据而设计为分析数据而设计
尽量避免冗余,一般针对某一业务应用进行设计引入冗余,依照分析需求,分析维度、分析指标进行设计

数仓的分层架构

分层实现

源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,
不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做
准备。

数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干
净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。

数据应用层(DA或APP):前端应用直接读取的数据源;根据报表、专题分析
需求而计算生成的数据。

ETL和ELT

在这里插入图片描述

二、数据库操作

  • 创建库

CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION position];

  • 删除库

DROP DATABASE db_name [CASCADE];

三、数据表操作

表语法和数据类型

创建数据库表语法

在这里插入图片描述

数据类型

在这里插入图片描述

内部表和外部表的区别

在这里插入图片描述

hive的默认分隔符

在这里插入图片描述

hive快速映射表

在这里插入图片描述

数据加载与导出

数据加载-LOAD语法

在这里插入图片描述
在这里插入图片描述

  • 如果不加local的话,会默认加载到HDFS中

数据加载 - INSERT SELECT 语法

在这里插入图片描述

hive表数据导出 - insert overwrite 方式

在这里插入图片描述

hive表数据导出 - hive shell

在这里插入图片描述

  • 27
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值