Hive总结1 基本操作

最新推荐文章于 2022-04-25 22:22:17 发布

Auraros

最新推荐文章于 2022-04-25 22:22:17 发布

阅读量199

点赞数

分类专栏： # Hive 文章标签： java hive 数据库大数据

本文链接：https://blog.csdn.net/qq_43634001/article/details/109344234

版权

Hive 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Hive总结1 基本操作

更多整理都在我的github上：Auraros欢迎大家。

数据库的基本操作

创建数据库

create database [if not exists] myhive;

说明一下： Hive表存放位置模式是由hive-site.xml当中的一个属性指定的：

<property>
	<name>hive.metastore.warehouse.dir</name> 			<value>/user/hive/warehouse</value>
</property>

创建数据库并指定HDFS的存储位置

create database myhive2 location '/myhive2';

删除数据库

drop database myhive2;

只能对空数据库使用该命令，如果数据库下面有数据表，那么就会报错。

强制删除数据库

drop database myhive cascade;

包含数据库下面的表一起删除，不要执行，十分危险

查看数据库

show databases;

查看详细信息

# 查看数据库基本信息
desc database myhive2;
# 查看数据库更多详细信息
desc database extended myhive2;

数据库切换

use myhive (数据库名);

修改数据库

数据库的元数据信息是不可更改的，包括数据库的名称以及数据库所在的位置,但我们可以使用alter database 命令来修改数据库的一些属性。

# 修改数据库的创建日期
alter  database  myhive2  set  dbproperties('createtime'='20880611');

Hive创建表的字段类型

基本数据类型

数据类型	长度	例子
TINYINT	1byte有符号整数	20
SMALINT	2byte有符号整数	20
INT	4byte有符号整数	20
BIGINT	8byte有符号整数	20
BOOLEAN	布尔类型	TRUE
FLOAT	单精度浮点数	3.14159
DOUBLE	双精度浮点数	3.14.59
STRING	字符序列。可以指定字符集	‘hello’
TIMESTAMP	整数，浮点数或者字符串	12312;1231.1232;‘2012-03-03’
BINARY	字节数组

集合数据类型

数据类型	描述	字面语法示例
STRUCT	跟对象类似，可以通过点访问	struct(‘John’,'Doe)
MAP	MAP键值对	map(‘first’,‘JOIN’,‘last’,‘Doe’)
ARRAY	ARRAY相同数组集合	Array(‘John’,‘Doe’)

数据表的基本操作

创建基本数据表

CREATE TABLE tableName(
	字段名称 字段类型, 
	字段名称 字段类型
	)
	ROW FORMAT DELIMITED 
	FIELDS TERMINATED BY "\t"
	STORED AS TEXTFILE;

创建外部数据表

CREATE EXTERNAL TABLE tableName2(
	字段名称 字段类型, 
	字段名称 字段类型
	)
    ROW FORMAT DELIMITED
	FIELDS TERMINATED BY ','
	STORED AS TEXTFILE
	LOCATION '/user/hive/external/fz_external_table';

从本地文件系统向表中加载数据

load data local inpath '文件路径' into table 表名

加载文件并覆盖已有的数据

load data local inpath '文件路径' overwrite into table 表名

从HDFS文件系统向表中加载数据

load data inpath '文件路径' into table 表名;

内部表和外部表的区别

在删除内部表时：内部表删除将表的元数据和数据同时删除。
在删除外部表时：外部表的元数据被删除，数据本身不删除。

分区

创建分区表

企业分区常见的分区规则：按天进行分区（一天一个分区）

创建分区表语法

create table score(
	s_id string,
	c_id string, 
	s_score int) 
	partitioned by (month string) 
	row format delimited 
	fields terminated by ‘\t’;

创建一个表带多个分区

create table score2 (
	s_id string,
	c_id string, 
	s_score int) 
	partitioned by (
	year string,
	month string,
	day string) 
	row format delimited 
	fields terminated by ‘\t’;

加载数据到分区表中

load data local inpath ‘数据路径’ into table score partition (month=‘201806’);

加载数据到多分区表中去

load data local inpath ‘数据路径’ into table score2 partition(year=‘2018’,month=‘06’,day=‘01’);

查看分区

show partitions score;

添加一个分区

alter table score add partition(month=‘201805’);

添加多个分区

alter table score add partition(month=‘201804’)   partition(month = ‘201803’);

注意：添加分区之后就可以在hdfs文件系统当中看到表下面多了一个文件夹

删除分区

alter table score drop partition(month = ‘201806’);

注意：

分区字段绝对不能出现在数据库表已有的字段中!

分区的作用

将数据按区域划分开，查询时不用扫描无关的数据，加快查询速度。

分桶

是在已有的表结构之上新添加了特殊的结构。将数据按照指定的字段进行分成多个桶中去，说白了就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件当中去

开启hive的桶表功能

set hive.enforce.bucketing=true;

设置桶reduce的个数

set mapreduce.job.reduces=3;

创建桶表

create table course (
	c_id string,
	c_name string,
	t_id string) 
	clustered by(c_id) into 3 buckets 
	row format delimited 
	fields terminated by ‘\t’;

注意

**桶表的数据加载，只能通过insert overwrite，**hdfs dfs -put文件或者通过load data无法加载。所以只能先创建普通表,并通过insert overwrite的方式将普通表的数据通过查询的方式加载到桶表当中去

创建普通表

create table course_common (
	c_id string,
	c_name string,
	t_id string) 
	row format delimited 
	fields terminated by ‘\t’;

普通表中加载数据

load data local inpath ‘数据路径’ into table course_common;

通过insert overwrite给桶表中加载数据

insert overwrite table course select * from course_common cluster by(c_id);

强调

分桶字段必须是表中的字段。

分桶逻辑
对分桶字段求哈希值,用哈希值与分桶的数量取余,余几,这个数据就放在哪个桶内。

Auraros

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive总结1 基本操作

Hive总结1 基本操作更多整理都在我的github上：Auraros欢迎大家。数据库的基本操作创建数据库create database [if not exists] myhive;说明一下： Hive表存放位置模式是由hive-site.xml当中的一个属性指定的：<property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</v
复制链接

扫一扫