hive基本概述以及DDL,DMLc操作

最新推荐文章于 2023-08-24 20:08:04 发布

May--J--Oldhu

最新推荐文章于 2023-08-24 20:08:04 发布

阅读量453

点赞数

分类专栏： Hive 文章标签： hadoop hive 大数据

本文链接：https://blog.csdn.net/May_J_Oldhu/article/details/108654681

版权

本文介绍了Hive的基础知识，包括产生的背景、含义和特点。Hive作为基于Hadoop的数据仓库工具，提供了类SQL的查询接口，降低开发人员的学习成本。文章深入探讨了Hive的架构，包括用户接口、元数据存储系统和执行流程。此外，详述了Hive的DDL操作，如创建、查看、修改和删除数据库及表，以及数据类型和数据存储模型。Hive DML部分涵盖加载数据、插入、选择、导出和表间JOIN操作。

摘要由CSDN通过智能技术生成

Hive

Hive（一）

Hive（一）

一.hive基础

1.hive产生背景

（1）直接使用mapreduce所面临的问题

1）、人员学习成本太高

2）、项目周期要求太短

3）、MapReduce实现复杂查询逻辑开发难度太大

（2）为什么要使用 Hive：

1）、更友好的接口：操作接口采用类 SQL 的语法，提供快速开发的能力

2）、更低的学习成本：避免了写 MapReduce，减少开发人员的学习成本

3）、更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数

2.Hive含义

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，可以将SQL语句转换成MapReduce任务运行。使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据，适用于离线的批量数据计算。

Hive依赖于HDFS存储数据，Hive 将HQL转换成mapreduce执行，所以说hive是基于hadoop的一个数据仓库工具，是指就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。

3.Hive特点

（1）.可扩展：Hive可以自由扩展集群的规模，一般情况下不需要重启服务

（2）.延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自定义的函数

（3）.容错性：良好的容错性，即使节点出现问题SQL仍可完成执行。

优势：

提供了一个简单的优化模型
HQL类SQL语法，简化MR开发
支持在不同的计算框架上运行
支持在HDFS和HBase上临时查询数据
支持用户自定义函数、格式
成熟的JDBC和ODBC驱动程序，用于ETL和BI
稳定可靠（真实生产环境）的批处理
有庞大活跃的社区

二.Hive架构

hive的体系结构可以分成以下几个部分

1.用户接口

CLI：即Shell命令行（Command Line Interface）,采用交互形式使用Hive命令行与Hive进行交互

JDBC/ODBC:是Hive的基于JDBC操作提供的客户端，用户通过这连接至Hive sever服务

Web UI：通过浏览器访问Hive

2.跨语言服务

Thrift是Facebook开发的一个软件框架，可以用来进行可扩展且跨语言的服务的开发，Hive集成了该服务，

能让不同的编程语言调用Hive的接口。

3.底层的Driver

驱动器Driver，编译器Compiler，优化器Optimizer，执行器Executor，Driver组件完成HQL查询语句从语法分析，语法分析，编译，优化，以及生产逻辑执行计划的生成。生成的逻辑之和星计划存储在HDFS中，并随后又MapReduce调用执行。

Hive的核心是驱动引擎，驱动引擎又四个部分组成：

（1）解释器：将HiveSQL语句转换为抽象语法树（AST）

（2）编译器：是将语法树编译成逻辑执行计划

（3）优化器：优化器是对逻辑执行计划进行优化

（4）执行器：执行器是调用底层的运行框架执行逻辑执行计划

4.元数据存储系统

元数据：存储在Hive中的数据的描述信息，HCatalog：将Hive元数据共享给其他应用程序

Hive 中的元数据通常包括：表的名字，表的列和分区及其属性，表的属性（内部表和外部表），表的数据所在目录

Metastore 默认存在自带的 Derby 数据库中。缺点就是不适合多用户操作，并且数据存储目录不固定。数据库跟着 Hive 走，极度不方便管理。

实际生产一般存储在MySQL中，修改配置文件hive-site.xml

5.执行流程

HiveQL 通过命令行或者客户端提交，经过 Compiler 编译器，运用 MetaStore 中的元数据进行类型检测和语法分析，生成一个逻辑方案(Logical Plan)，然后通过的优化处理，产生一个 MapReduce 任务。

三.Hive数据存储模型

Hive中所有的数据都在存储HDFS中，没有专门的数据存储格式；只需要在创建表的适合告诉hive数据中的列分隔符和行分隔符，hive就可以解析数据

在这里插入图片描述

hive中的数据模型：

（1）db：在HDFS中表现为：${hive.metastore.warehouse.dir}目录下的一个文件夹。

（2）table：在HDFS表现为所属db目录下的一个文件夹

（3）external table：与table类似，但其数据存放位置可以在任意位置指定路径

（4）partition：在HDFS中表现为table目录下的子目录

（5）bucket：在HDDFS中表现为同一个表目录下根据hash散列之后的多个文件。

在这里插入图片描述

四.数据类型

1.基本数据类型

类型	描述	示例
boolean	true/false	TRUE
tinyint	1字节的有符号整数	-128~127 1Y
smallint	2个字节的有符号整数，-32768~32767	1S
int	4个字节的带符号整数	1
bigint	8字节带符号整数	1L
float	4字节单精度浮点数	1.0
double	8字节双精度浮点数	1.0
deicimal	任意精度的带符号小数	1.0
String	字符串，变长	“a”,’b’
varchar	变长字符串	“a”,’b’
char	固定长度字符串	“a”,’b’
binary	字节数组	无法表示
timestamp	时间戳，纳秒精度	122327493795
date	日期	‘2018-04-07’

2.复杂数据类型

类型	描述	示例
array	有序的的同类型的集合	array(1,2)
map	key-value,key必须为原始类型，value可以任意类型	map(‘a’,1,’b’,2)
struct	字段集合,类型可以不同	struct(‘1’,1,1.0), named_stract(‘col1’,’1’,’col2’,1,’clo3’,1.0)

示例建表

（1）有表数据文件employee.txt如下

Michael|Montreal,Toronto|Male,30|DB:80|Product:DeveloperLead
Will|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Shelley|New York|Female,27|Python:80|Test:Lead,COE:Architect
Lucy|Vancouver|Female,57|Sales:89|Sales:Lead

（2）建表employee

create table employee(
name string,
address array<string>,
personaInfo array<string>,
technol map<string,int>,
jobs map<string,string>)
row format delimited
fields terminated by '|'             #列分隔符
collection items terminated by ','   #map struct和array的分隔符
map keys terminated by ':'           #MAP中的key与value的分隔符
lines terminated by '\n';            #行分隔符

（3）上传表

 hdfs dfs -put /root/employee.txt /opt/hive/warehouse/employee/

（4）访问数据

hive> select * from employee;
OK
Michael ["Montreal","Toronto"]  ["Male","30"]   {
   "DB":80}       {
   "Product":"Developer\u0004Lead"}
Will    ["Montreal"]    ["Male","35"]   {
   "Perl":85}     {
   "Product":"Lead","Test":"Lead"}
Shelley ["New York"]    ["Female","27"] {
   "Python":80}   {
   "Test":"Lead","COE":"Architect"}
Lucy    ["Vancouver"]   ["Female","57"] {
   "Sales":89}    {
   "Sales":"Lead"}
Time taken: 0.037 seconds, Fetched: 4 row(s)

访问列数据

hive> select name,address[0],personaInfo[0],technol["Sales"] from employee;
OK
Michael Montreal        Male    NULL
Will    Montreal        Male    NULL
Shelley New York        Female  NULL
Lucy    Vancouver       Female  89
Michael 100     Montreal        NULL
Will    101     Montreal        NULL
Steven  102     New York        NULL
Lucy    103     Vancouver       NULL
Mike    104     Montreal        NULL
Shelley 105     New York        NULL
Luly    106     Vancouver       NULL
Lily    107     Montreal        NULL
Shell   108     New York        NULL
Mich    109     Vancouver       NULL
Dayong  110     Montreal        NULL
Sara    111     New York        NULL
Roman   112     Vancouver       NULL
Christine       113     Montreal        NULL
Eman    114     New York        NULL
Alex    115     Vancouver       NULL
Alan    116     Montreal        NULL
Andy    117     New York        NULL
Ryan    118     Vancouver       NULL
Rome    119     Montreal        NULL
Lym     120     New York        NULL
Linm    121     Vancouver       NULL
Dach    122     Montreal        NULL
Ilon    123     New York        NULL
Elaine  124     Vancouver       NULL
Time taken: 0.292 seconds, Fetched: 29 row(s)

修改表结构

将personinfo改成info struct<gender:string,age:int>

hive> alter table employee change personainfo info struct<gender:string,age:int>
    > ;
OK
Time taken: 0.171 seconds

#再次查看
hive> select * from employee;
OK
Michael ["Montreal","Toronto"]  {
   "gender":"Male","age":30}      {
   "DB":80}       {
   "Product":"Developer\u0004Lead"}
Will    ["Montreal"]    {
   "gender":"Male","age":35}      {
   "Perl":85}     {
   "Product":

最低0.47元/天解锁文章

May--J--Oldhu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive基本概述以及DDL,DMLc操作

HiveHive（一）一.hive基础1.hive产生背景2.Hive含义3.Hive特点二.Hive架构1.用户接口2.跨语言服务3.底层的Driver4.元数据存储系统5.执行流程三.Hive数据存储模型四.数据类型1.基本数据类型2.复杂数据类型示例建表五.Hive操作1.Hive DDL（1）创建库1）创建普通的数据库2）创建库的时候检查存与否3）创建库的时候带注释4）创建带属性的库（2）查看库1）查看数据库2）显示数据库的详细属性信息3）查看正在使用的哪一个库（3）删除库1)删除不含表的数据库2）
复制链接

扫一扫

专栏目录