Hive总结1 基本操作

Hive总结1 基本操作

更多整理都在我的github上:Auraros欢迎大家。

数据库的基本操作

创建数据库

create database [if not exists] myhive;

说明一下: Hive表存放位置模式是由hive-site.xml当中的一个属性指定的:

<property>
	<name>hive.metastore.warehouse.dir</name> 			<value>/user/hive/warehouse</value>
</property>

创建数据库并指定HDFS的存储位置

create database myhive2 location '/myhive2';

删除数据库

drop database myhive2;

只能对空数据库使用该命令,如果数据库下面有数据表,那么就会报错。

强制删除数据库

drop database myhive cascade;

包含数据库下面的表一起删除,不要执行,十分危险

查看数据库

show databases;

查看详细信息

# 查看数据库基本信息
desc database myhive2;
# 查看数据库更多详细信息
desc database extended myhive2;

数据库切换

use myhive (数据库名);

修改数据库

数据库的元数据信息是不可更改的,包括数据库的名称以及数据库所在的位置,但我们可以使用alter database 命令来修改数据库的一些属性。

# 修改数据库的创建日期
alter  database  myhive2  set  dbproperties('createtime'='20880611');

Hive创建表的字段类型

基本数据类型

数据类型长度例子
TINYINT1byte有符号整数20
SMALINT2byte有符号整数20
INT4byte有符号整数20
BIGINT8byte有符号整数20
BOOLEAN布尔类型TRUE
FLOAT单精度浮点数3.14159
DOUBLE双精度浮点数3.14.59
STRING字符序列。可以指定字符集‘hello’
TIMESTAMP整数,浮点数或者字符串12312;1231.1232;‘2012-03-03’
BINARY字节数组

集合数据类型

数据类型描述字面语法示例
STRUCT跟对象类似,可以通过点访问struct(‘John’,'Doe)
MAPMAP键值对map(‘first’,‘JOIN’,‘last’,‘Doe’)
ARRAYARRAY相同数组集合Array(‘John’,‘Doe’)

数据表的基本操作

创建基本数据表

CREATE TABLE tableName(
	字段名称 字段类型, 
	字段名称 字段类型
	)
	ROW FORMAT DELIMITED 
	FIELDS TERMINATED BY "\t"
	STORED AS TEXTFILE;

创建外部数据表

CREATE EXTERNAL TABLE tableName2(
	字段名称 字段类型, 
	字段名称 字段类型
	)
    ROW FORMAT DELIMITED
	FIELDS TERMINATED BY ','
	STORED AS TEXTFILE
	LOCATION '/user/hive/external/fz_external_table';

从本地文件系统向表中加载数据

load data local inpath '文件路径' into table 表名

加载文件并覆盖已有的数据

load data local inpath '文件路径' overwrite into table 表名

从HDFS文件系统向表中加载数据

load data inpath '文件路径' into table 表名;

内部表和外部表的区别

  • 在删除内部表时:内部表删除将表的元数据和数据同时删除。
  • 在删除外部表时:外部表的元数据被删除,数据本身不删除。

分区

创建分区表

企业分区常见的分区规则:按天进行分区(一天一个分区)

创建分区表语法

create table score(
	s_id string,
	c_id string, 
	s_score int) 
	partitioned by (month string) 
	row format delimited 
	fields terminated by ‘\t’;

创建一个表带多个分区

create table score2 (
	s_id string,
	c_id string, 
	s_score int) 
	partitioned by (
	year string,
	month string,
	day string) 
	row format delimited 
	fields terminated by ‘\t’;

加载数据到分区表中

load data local inpath ‘数据路径’ into table score partition (month=‘201806’);

加载数据到多分区表中去

load data local inpath ‘数据路径’ into table score2 partition(year=‘2018’,month=‘06’,day=‘01’);

查看分区

show partitions score;

添加一个分区

alter table score add partition(month=‘201805’);

添加多个分区

alter table score add partition(month=‘201804’)   partition(month = ‘201803’);

注意:添加分区之后就可以在hdfs文件系统当中看到表下面多了一个文件夹

删除分区

alter table score drop partition(month = ‘201806’);

注意:

分区字段绝对不能出现在数据库表已有的字段中!

分区的作用

将数据按区域划分开,查询时不用扫描无关的数据,加快查询速度。

分桶

是在已有的表结构之上新添加了特殊的结构。将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去

开启hive的桶表功能

set hive.enforce.bucketing=true;

设置桶reduce的个数

set mapreduce.job.reduces=3;

创建桶表

create table course (
	c_id string,
	c_name string,
	t_id string) 
	clustered by(c_id) into 3 buckets 
	row format delimited 
	fields terminated by ‘\t’;

注意

**桶表的数据加载,只能通过insert overwrite,**hdfs dfs -put文件或者通过load data无法加载。所以只能先创建普通表,并通过insert overwrite的方式将普通表的数据通过查询的方式加载到桶表当中去

创建普通表

create table course_common (
	c_id string,
	c_name string,
	t_id string) 
	row format delimited 
	fields terminated by ‘\t’;

普通表中加载数据

load data local inpath ‘数据路径’ into table course_common;

通过insert overwrite给桶表中加载数据

insert overwrite table course select * from course_common cluster by(c_id);

强调

分桶字段必须是表中的字段。

分桶逻辑
对分桶字段求哈希值,用哈希值与分桶的数量取余,余几,这个数据就放在哪个桶内。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实验五的目标是熟悉Hive基本操作Hive是一个数据仓库基础设施工具,它能够提供类似于传统数据库的查询和分析功能,同时也能处理大规模的数据集。 首先,我们需要搭建Hive的环境。通过在终端输入指令,下载并解压Hive软件包,然后进行一系列配置,包括指定Hadoop的位置和Hive的元数据存放的位置等。 之后,我们启动Hive服务,并通过终端登录到Hive命令行界面。在这个界面中,我们可以运行Hive查询语句以及执行一些基本操作。 接下来,我们可以创建自己的数据库,并在其中创建表。在Hive中,表可以通过创建一个外部表或者一个内部表来实现。外部表在创建时只是一个指向数据存放位置的指针,而内部表将数据复制到Hive的默认文件系统中。 在创建表之后,我们可以向表中导入数据。通过使用Hive的LOAD命令,我们可以将数据从外部数据源导入到Hive表中。 之后,我们可以进行一些查询和分析操作。Hive提供了类似于SQL的查询语法,例如SELECT、WHERE和GROUP BY等。我们可以根据需求编写查询语句,并通过运行查询来获取结果。 除了基本的查询功能,Hive也支持一些高级功能,例如分区表、排序表和分桶表等。这些功能可以在数据处理时提供更好的性能和灵活性。 最后,我们需要记得关闭Hive服务,以免占用资源。在终端中输入指令,即可关闭Hive总结来说,实验五是为了熟悉Hive基本操作。我们通过搭建环境、创建表、导入数据和运行查询等步骤,了解了Hive的使用方法和功能。掌握了这些基本操作后,我们就可以在实际的数据处理和分析工作中更好地利用Hive

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值