Hive架构概述及基础操作

Hive入门

一、Hive基础架构

1、Hive和MapReduce的关系

在这里插入图片描述

1- 用户在Hive上编写数据分析的SQL语句,然后再通过Hive将SQL语句翻译成MapReduce程序代码,最后提交到Yarn集群上进行运行
2- 大家可以将Hive理解成有道词典,帮助你翻译英文

2、Hive架构

在这里插入图片描述在这里插入图片描述

用户接口: 包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。Hive提供了 Hive Shell、 ThriftServer等服务进程向用户提供操作接口

Hiveserver2(Driver): 包括了语法、词法检查、计划编译器、优化器、执行器。核心作用是完成对HiveSQL(HQL)语句从词法、语法检查,并且进行编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后由MapReduce进行执行。
注意: 这部分内容不是具体的进程,而是封装在Hive所依赖的jar中通过Java代码实现。

元数据信息: 包含用Hive创建的Database、table,以及表里面的字段等详细信息
元数据存储: 存储在关系型数据库(RDBMS  relation database manager system)中。例如:Hive中有一个默认的关系型数据库是Derby,但是一般会改成MySQL。


Metastore: 是一个进程(服务),用来管理元数据信息。
作用: 客户端连接到Metastore中,Metastore再去关系型数据库中查找具体的元数据信息,然后将结果返回给客户端。
特点: 有了Metastore服务以后,就可以有多个客户端(工作中一般使用的就是DataGrip)同时连接。而且这些客户端都不需要知道元数据存储在什么地方,你只需要连接到Metastore服务里面就行。

3、MetaStore元数据管理服务

metastore服务配置有3种模式: 内嵌模式、本地模式、远程模式

推荐使用: 远程模式

在这里插入图片描述

内嵌模式:
    优点: 解压hive安装包 bin/hive 启动即可使用
	缺点: 不适用于生产环境,derby和Metastore服务都嵌入在主Hive Server进程中,一个服务只能被一个客户端连接(如果用两个客户端以上就非常浪费资源),且元数据不能共享


本地模式: 
    优点: 可以单独使用外部数据库(一般是MySQL)进行元数据的管理
    缺点: 相对浪费资源。指的是Metastore每次启动一次的时候都需要对应的启动Hiveserver2服务。也就是本地模式他们两个是成对出现的。这3个服务的启动顺序,MySQL->metastore->Hiveserver2
    
    
远程模式: 
    优点: 可以单独使用外部数据库(一般是MySQL)进行元数据的管理。Hiveserver2、metastore、MySQL这3个可以单独配置、启动、运行
    缺点:
    	1- 这3个服务的启动顺序,MySQL->metastore->Hiveserver2
    	2- 这3个服务可能是分布在不同机器上运行的,可能会导致不同服务间进行数据交换速度比较慢
    	
 工作中推荐使用远程模式

4、数据仓库和数据库

4.1 数据仓库和数据库的区别

数据库与数据仓库的区别:实际讲的是OLTP与OLAP的区别
OLTP(On-Line Transaction Processin): 联机事务处理。数据库中可以进行数据的【增删改查】操作

OLAP(On-Line Analytical Processing): 联机分析处理。数据仓库中主要是对数据进行【查询】操作

数据仓库主要特征:

数据仓库的出现,并不是要取代数据库,主要区别如下:
    1- 数据库是面向事务的设计,数据仓库是面向主题设计的。
    2- 数据库是为捕获(指的是能够对数据进行增删改操作)数据而设计,数据仓库是为分析数据而设计
	3- 数据库一般存储业务数据(由于用户的各种操作行为产生的数据,例如:下单、商品浏览等),数据仓库存储的一般是历史数据。
    4- 数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。
	5- 数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。

在这里插入图片描述

4.2 数据仓库基础三层架构

在这里插入图片描述

源数据层(ODS): 该层数据几乎不做任何处理操作。直接使用外部系统中的数据结构(数据库名称、表名称、表结构)。为大数据数仓中后续的其他处理提供数据支撑

数据仓库层(DW): 也称之为细节层。DW层的数据应该做到一致、准确、干净。也就是对ODS层中的数据进行ETL以及数据指标分析

数据应用层(DA或APP): 前端页面直接读取该层的数据,进行前端可视化(以看得见的图表、曲线图、柱状图、饼图)的展示


大数据前端产品示例:https://tongji.baidu.com/main/overview/demo/overview/index

4.3 ETL和ELT

广义上ETL:数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extract, 转化Transform , 装载Load)的过程。

但是在实际操作中将数据加载到仓库却产生了两种不同做法:ETL和ELT。

狭义上ETL: 先将数据从业务系统(可以理解为例如京东的订单数据)中抽取到数据仓库的ODS层中,然后执行转换操作,将数据结构化并且转换层适合后续容易处理的表结构

ELT: 将数据从业务系统中抽取并且直接加载到数据仓库的DW层的表里面。加载完以后,再根据业务需求对数据进行清洗以及指标的计算分析

二、Hive数据库操作

1、基本操作

知识点:

创建数据库: create database [if not exists] 库名 [location '路径'];

使用数据库: use 库名;

注意: location路径默认是:

删除数据库: drop database 数据库名 [cascade];

示例:

-- Hive的数据库核心操作(掌握)
-- 创建Hive数据库
-- if not exists:如果不存在,就创建;如果存在,不会有任何的变化
-- 数据库默认放在/user/hive/warehouse HDFS目录中
create database if not exists hive1;

create database test;

-- 创建数据库的时候可以手动指定数据库存放的路径(不推荐使用,了解)
-- location指定的是HDFS路径
create database test1 location '/test1';

-- 在数据库中创建表
-- 需要先指定数据库
use hive1;

-- 建表
-- 建表实际上就是在HDFS的数据库目录下创建一个与表名同名的文件夹
create table stu(id int,name varchar(100));

-- 通过 数据库名称.表名称  也可以创建表
create table test1.stu(id int,name varchar(100));


-- 删除数据库
drop database test1;

-- 强制删除非空的数据库
-- 删除数据库的时候,同时会将HDFS上面的数据库目录删除
drop database test1 cascade;


-- 查看建库的语句
show create database hive1;

-- 查看所有数据库
show databases;

-- 查看目前正在使用的数据库
select current_database();

-- 查看指定数据库的基本信息。desc是describe单词缩写
desc database hive1;

删除数据库可能遇到的错误:

在这里插入图片描述

原因: 在Hive中删除数据库的时候,需要确保数据库下面没有其他的内容,否则会报错
解决办法: 
	1- (不推荐)先手工删除数据库中的内容,然后再删除
	2- 使用cascade进行强制删除

在这里插入图片描述

2、其他操作

知识点:

创建数据库: create database [if not exists] 库名 [comment '注释'] [location '路径'] [with dbproperties ('k'='v')];

修改数据库路径: alter database 库名 set location 'hdfs://node1.itcast.cn:8020/路径'
修改数据库属性: alter database 库名 set dbproperties ('k'='v');

查看所有的数据库: show databases;
查看某库建库语句: show create database 库名;
查看指定数据库信息: desc database 库名;
查看指定数据库扩展信息: desc database extended 库名;
查看当前使用的数据库: select current_database();

示例:

-- Hive数据库的其他操作(了解)
-- 1- 创建数据库database,也可以使用schema进行创建数据库
create schema demo1;

-- 2- 创建数据库指定其他的信息。推荐大家将数据库默认就放在/user/hive/warehouse路径
create database demo2
    comment "这是一个数据库"
    location "/user/hive/warehouse/demo2.db"
    with dbproperties ('name'='my name is demo2');

create database demo3
    comment "it is database"
    location "/user/hive/warehouse/demo3.db"
    with dbproperties ('name'='my name is demo3');

-- 3- 查看建库的语句
show create database demo3;

-- 4- 查看所有数据库
show databases;

-- 5- 查看目前正在使用的数据库
select current_database();

-- 6- 查看指定数据库的基本信息。desc是describe单词缩写
desc database demo3;
-- describe database demo3;

-- 7- 查看指定数据库的扩展信息
desc database extended demo3;

-- 8- 修改数据库中数据存放的路径
-- 注意:location中的路径必须要写HDFS完整路径
-- 注意:如果修改了数据库的路径,那么只有在数据库下面创建表的时候,它才会给你创建数据库目录
-- 注释的快捷键:ctrl+/
-- 复制的快捷键:ctrl+D
-- alter database demo3 set location '/dir/demo3';
alter database demo3 set location 'hdfs://node1:8020/dir/demo3';
-- 注意:如果修改了数据库的路径,那么只有在数据库下面创建表的时候,它才会给你创建数据库目录
create table demo3.stu(id int,name varchar(100));

alter database demo3 set dbproperties ('name'='my name is demo33333');

desc database extended demo3;

修改数据库的location可能遇到的错误:

在这里插入图片描述

原因: location中的路径必须要写HDFS完整路径

三、Hive官网介绍

  • 地址https://hive.apache.org/

  • 文档

    在这里插入图片描述

  • 数据库操作

    在这里插入图片描述

  • 其他文档

    在这里插入图片描述

四、Hive表操作

1、建表语法

create [external] table [if not exists] 表名(字段名 字段类型 , 字段名 字段类型 , ... )
[partitioned by (分区字段名 分区字段类型)] # 分区表固定格式
[clustered by (分桶字段名)  into 桶个数 buckets]  # 分桶表固定格式 注意: 可以排序[sorted by (排序字段名 asc|desc)]
[row format delimited fields terminated by '字段分隔符'] # 自定义字段分隔符固定格式
[stored as textfile]  # 默认即可
[location 'hdfs://node1.itcast.cn:8020/user/hive/warehouse/库名.db/表名'] # 默认即可
; # 注意: 最后一定加分号结尾

注意: 
	1- 关键字顺序是从上到下从左到右,否则报错
	2- 关键字不区分大小写。也就是例如create可以大写也可以小写

2、数据类型

1、基本数据类型
	整数: int  
	小数: float double  
	字符串: string varchar(长度)  
	日期: date timestamp
	
	补充: timestamp时间戳,指的是从1970-01-01 00:00:00 到现在的时间的差值。


2、复杂数据类型
    集合: array  
    映射: map   
    结构体: struct  
    联合体: union 

在这里插入图片描述

3、表分类

Hive中可以创建的表有好几种类型, 分别是:
内部表(管理表): MANAGED_TABLE
	分区表
	分桶表

外部表(非管理表): EXTERNAL_TABLE
	分区表
	分桶表

default默认库存储路径: hdfs://node1:8020/user/hive/warehouse
自定义库在HDFS的默认存储路径: hdfs://node1:8020/user/hive/warehouse/数据库名称.db
自定义表在HDFS的默认存储路径: hdfs://node1:8020/user/hive/warehouse/数据库名称.db/表名称
业务数据文件在HDFS的默认存储路径: hdfs://node1:8020/user/hive/warehouse/数据库名称.db/表名称/业务数据文件

内部表和外部表区别?
内部表: 创建的时候没有external关键字,默认创建的就是内部表,也称之为普通表/管理表/托管表
删除内部表: 同时会删除MySQL中的元数据信息,还会删除HDFS上的业务数据
	
外部表: 创建的时候有external关键字,创建的就是外部表,也称之为非托管表/非管理表/关联表
删除外部表: 只会删除MySQL中的元数据信息,不会删除HDFS上的业务数据
-- 创建内部表
-- 注意事项:
use hive1;

create table stu1(
  id int,
  name string
);

create table stu2(
  id int,
  name string
);

-- 创建外部表
create external table stu3(
  id int,
  name string
);

-- 查看表结构
desc stu1;
desc stu3;

-- 查看表格式化的信息
desc formatted stu1;
desc formatted stu3;

-- 添加数据到表里面
insert into stu1 values(1,'zhangsan');
insert into stu3 values(1,'zhangsan');

-- 删除表
drop table stu1; -- 内部表
drop table stu3; -- 外部表

删除内部表和外部表前后元数据信息的变化

在这里插入图片描述

内部表信息:

在这里插入图片描述

外部表信息:

在这里插入图片描述

Hive建表的时候可能遇到的错误:

在这里插入图片描述

原因: 在Hive中int数据类型,不能指定长度

4、默认分隔符

知识点:

创建表的时候,如果不指定分隔符,以后表只能识别默认的分隔符,键盘不好打印,展示形式一般为:\0001,SOH,^A,□

示例:

-- 默认分隔符: 创建表的时候不指定就代表使用默认分隔符
-- 1.创建表
create table stu(
    id int,
    name string
);
-- insert方式插入数据,会自动使用默认分隔符把数据连接起来
-- 2.插入数据
insert into stu values(1,'zhangsan');
-- 3.验证数据
select * from stu;
-- 当然也可以通过在hdfs中查看,默认分隔符是\0001,其他工具中也会展示为SOH,^A,□

在这里插入图片描述

5、内部表

知识点:

创建普通内部表: create table [if not exists] 表名(字段名 字段类型 , 字段名 字段类型...) [row format delimited fields terminated by '指定分隔符'];

删除内部表: drop table 内部表名;       注意: 删除mysql中元数据同时也会删除hdfs中存储数据

修改表名: alter table 旧表名 rename to 新表名;
修改表字段名称和类型: alter table 表名 change 旧字段名 新字段名 新字段类型;
修改表之添加字段(列): alter table 表名 add columns (字段名 字段类型);
修改表之替换字段(列):alter table 表名 replace columns (字段名 字段类型);

查看所有表: show tables;
查看指定表基本信息: desc 表名; 
查看指定表扩展信息: desc extended 表名;
查看指定表格式信息: desc formatted 表名;
查看指定表建表语句: show create table 表名;

示例:

-- 内部表的操作

-- 创建和使用数据库
create database myhive;
use myhive;

-- 创建内部表
create table if not exists stu(
    id int,
    name string
);

-- 插入数据
insert into stu values(1,'张三');


-- 查询表数据
-- 下面语句被Hive进行了优化,不会变成MapReduce
select * from stu;
-- 这个会变成MapReduce
select name,count(1) from stu group by name;


-- 建表的时候指定字段间的分隔符
create table if not exists stu1(
    id int,
    name string
) row format delimited fields terminated by ',';

insert into stu1 values(1,'张三');

-- 创建表的其他方式
-- 创建stu2表的时候,复制stu1的表结构,并且将select的查询结果插入到stu2的表的里面去
-- 注意不会负责原表的分隔符,新表用的还是默认
create table stu2 as select * from stu1;

select * from stu2;

-- 该方式只会复制stu1表的结构,没有数据。
create table stu3 like stu1;

select * from stu3;

-- 查询表信息
-- 查看当前数据库中的所有表
show tables;

-- 查询表的基本信息
desc stu3;

-- 查看表的扩展信息
desc extended stu3;

desc formatted stu3;


-- 查看指定表的建表语句
show create table stu3;

-- 删除表
drop table stu;

-- 清空表数据。需要保留表结构,但是不想要数据
select * from stu1;
truncate table stu1;
select * from stu1;

在这里插入图片描述

6、外部表

知识点:

创建外部表: create external table [if not exists] 外部表名(字段名 字段类型 , 字段名 字段类型 , ... )[row format delimited fields terminated by '字段分隔符'] ;

复制表: 方式1: like方式复制表结构    注意: as方式不可以使用

删除外部表: drop table 外部表名;
	注意: 删除外部表效果是mysql中元数据被删除,但是存储在hdfs中的业务数据本身被保留
	
查看表格式化信息: desc formatted 表名; -- 外部表类型: EXTERNAL_TABLE

注意: 外部表不能使用truncate清空数据本身

示例:

-- 二.外部表的创建和删除
-- 1.外部的表创建
-- 建表方式1
create external table outer_stu1(
    id int,
    name string
);
-- 插入数据
insert into outer_stu1 values(1,'张三');

-- 建表方式2
create external table outer_stu2 like outer_stu1;
-- 插入数据
insert into outer_stu2 values(1,'张三');

-- 注意: 外部表不能使用create ... as 方式复制表
create external table outer_stu3 as
    select * from outer_stu1; -- 报错

-- 2.演示查看外部表结构详细信息
-- 外部表类型: EXTERNAL_TABLE
desc formatted outer_stu1;
desc formatted outer_stu2;


-- 3.演示外部表的删除
-- 删除表
drop table outer_stu2;
-- 注意: 外部表不能使用truncate关键字清空数据
truncate table outer_stu1; -- 报错
-- 注意: delete和update不能使用
delete from outer_stu1; -- 报错
update outer_stu1 set name = '李四'; -- 报错

7、查看和修改表

知识点:

查看所有表: show tables;
查看建表语句: show create table 表名;
查看表信息: desc 表名;
查看表结构信息: desc 表名; 
查看表格式化信息: desc formatted 表名;            注意: formatted能够展示详细信息

修改表名: alter table 旧表名 rename to 新表名
字段的添加: alter table 表名 add columns (字段名 字段类型);
字段的替换: alter table 表名 replace columns (字段名 字段类型 , ...);
字段名和字段类型同时修改: alter table 表名 change 旧字段名 新字段名 新字段类型;
	注意: 字符串类型不能直接改数值类型
	
修改表路径: alter table 表名 set location 'hdfs中存储路径';             注意: 建议使用默认路径
location:  建表的时候不写有默认路径/user/hive/warehouse/库名.db/表名,当然建表的时候也可以直接指定路径

修改表属性: alter table 表名 set tblproperties ('属性名'='属性值');     注意: 经常用于内外部表切换
内外部表类型切换:  外部表属性: 'EXTERNAL'='TRUE'   内部表属性: 'EXTERNAL'='FALSE'

示例:

-- 三.表的查看/修改操作
-- 验证之前的内外部表是否存在以及是否有数据,如果没有自己创建,如果有直接使用
select * from inner_stu1 limit 1;
select * from outer_stu1 limit 1;
-- 1.表的查看操作
-- 查看所有的表
show tables;
-- 查看建表语句
show create table inner_stu1;
show create table outer_stu1;
-- 查看表基本机构
desc inner_stu1;
desc outer_stu1;
-- 查看表格式化详细信息
desc formatted inner_stu1;
desc formatted outer_stu1;

-- 2.表的修改操作
-- 修改表名
-- 注意: 外部表只会修改元数据表名,hdfs中表目录名不会改变
alter table inner_stu1 rename to inner_stu;
alter table outer_stu1 rename to outer_stu;
-- 修改表中字段
-- 添加字段
alter table inner_stu add columns(age int);
alter table outer_stu add columns(age int);
-- 替换字段
alter table inner_stu replace columns(id int,name string);
alter table outer_stu replace columns(id int,name string);
-- 修改字段
alter table inner_stu change name sname varchar(100);
alter table outer_stu change name sname varchar(100);

-- 修改表路径(实际不建议修改)
-- 注意: 修改完路径后,如果该路径不存在,不会立刻创建,以后插入数据的时候自动生成目录
alter table inner_stu set location '/inner_stu';
alter table outer_stu set location '/outer_stu';

-- 修改表属性
-- 先查看类型
desc formatted inner_stu; -- MANAGED_TABLE
desc formatted outer_stu; -- EXTERNAL_TABLE
-- 内部表改为外部表
alter table inner_stu set tblproperties ('EXTERNAL'='TRUE');
-- 外部表改为内部表
alter table outer_stu set tblproperties ('EXTERNAL'='FALSE');
-- 最后再查看类型
desc formatted inner_stu; -- EXTERNAL_TABLE
desc formatted outer_stu; -- MANAGED_TABLE

8、快速映射表

知识点:

创建表的时候指定分隔符: create [external] table 表名(字段名 字段类型)row format delimited fields terminated by 符号;

加载数据: load data [local] inpath '结构化数据文件' into table 表名;

示例:

-- 创建表
create table products(
    id int,
    name string,
    price double,
    cid string
)row format delimited
fields terminated by ',';
-- 加载数据
-- 注意: 如果从hdfs中加载文件,本质就是移动文件到对应表路径下
load data inpath '/source/products.txt' into table products;
-- 验证数据
select * from products limit 1;

operties (‘EXTERNAL’=‘TRUE’);
– 外部表改为内部表
alter table outer_stu set tblproperties (‘EXTERNAL’=‘FALSE’);
– 最后再查看类型
desc formatted inner_stu; – EXTERNAL_TABLE
desc formatted outer_stu; – MANAGED_TABLE




## 8、快速映射表

**知识点:**

```properties
创建表的时候指定分隔符: create [external] table 表名(字段名 字段类型)row format delimited fields terminated by 符号;

加载数据: load data [local] inpath '结构化数据文件' into table 表名;

示例:

-- 创建表
create table products(
    id int,
    name string,
    price double,
    cid string
)row format delimited
fields terminated by ',';
-- 加载数据
-- 注意: 如果从hdfs中加载文件,本质就是移动文件到对应表路径下
load data inpath '/source/products.txt' into table products;
-- 验证数据
select * from products limit 1;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

搬砖人_li

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值