大数据技术基础实验十:Hive实验——新建Hive表

大数据技术基础实验十:Hive实验——新建Hive表

一、前言

在前面一期博客中我们完成了Hive的部署任务,本期博客我们将学习有关在Hive中创建表等一些基本操作。

二、实验目的

  1. 学会创建Hive的表
  2. 显示Hive中的所有表
  3. 显示Hive中表的列项
  4. 修改Hive中的表并能够删除Hive中的表

三、实验要求

要求实验结束时每位学生均能够完成Hive的DDL操作,能够在Hive中新建,显示,修改和删除表等功能。

四、实验原理

Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。

Hive中所有的数据都存储在HDFS中,Hive中包含以下数据模型:表(Table),外部表(External Table),分区(Partition),桶(Bucket)。

Hive中Table和数据库中 Table在概念上是类似的,每一个Table在Hive中都有一个相应的目录存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。

五、实验步骤

1、启动Hive

我们在master虚拟机上首先进入hive的bin目录下,然后执行hive命令即可启动:

cd /usr/cstor/hive/bin/
hive

在这里插入图片描述

可以看见我们的Hive启动成功了,可以开始基本操作学习了。

2、创建表

默认情况下,新建表的存储格式均为Text类型,字段间默认分隔符为键盘上的Tab键。

创建一个有两个字段的pokes表,其中第一列名为foo,数据类型为INT,第二列名为bar,类型为STRING:

CREATE TABLE pokes (foo INT, bar STRING) ;

在这里插入图片描述

创建一个有两个实体列和一个(虚拟)分区字段的invites表:

CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING) ;

在这里插入图片描述

注意:分区字段并不属于invites,当向invites导入数据时,ds字段会用来过滤导入的数据。

3、显示表

显示所有的表:

SHOW TABLES ;

在这里插入图片描述

显示表(正则查询),同MySQL中操作一样,Hive也支持正则查询,比如显示以.s结尾的表:

SHOW TABLES '.*s';

在这里插入图片描述

4、显示表列

DESCRIBE invites;

在这里插入图片描述

5、更改表

修改表events名为3koobecaf (自行创建任意类型events表):

CREATE TABLE events (foo INT, bar STRING) ;
ALTER TABLE events RENAME TO 3koobecaf;

在这里插入图片描述

将pokes表新增一列(列名为new_col,类型为INT):

ALTER TABLE pokes ADD COLUMNS (new_col INT);

在这里插入图片描述

将invites表新增一列(列名为new_col2,类型为INT),同时增加注释“a comment”:

ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');

在这里插入图片描述

替换invites表所有列名(数据不动):

ALTER TABLE invites REPLACE COLUMNS (foo INT, bar STRING, baz INT COMMENT 'baz replaces new_col2');

在这里插入图片描述

6、删除表或者列

删除invites表bar 和 baz 两列:

ALTER TABLE invites REPLACE COLUMNS (foo INT COMMENT 'only keep the first column');

在这里插入图片描述

删除pokes表:

DROP TABLE pokes;

在这里插入图片描述

六、最后我想说

本期实验的内容也比较的简单,都是一些基础的操作,跟MySQL操作类似,所以应该很容易就能理解和上手。

好啦本期实验就到这里结束了,我们下期实验见!

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
好的,以下是基于大数据技术与原理的Hive部署与应用的实验步骤。 1. 环境搭建 - 操作系统选择:我们建议使用Linux系统,如Ubuntu或CentOS等。 - 安装Java:Hadoop和Hive都需要Java环境,所以需要先安装Java。 - 安装Hadoop:Hive是基于Hadoop技术的,因此需要先安装Hadoop。 - 安装Hive:下载Hive安装包,解压到指定目录,配置环境变量。 2. HiveQL语言与基本操作 - HiveQL语言简介:HiveQL是类似于SQL的查询语言,可以通过HiveQL查询Hive中的数据。 - 建立格:使用CREATE TABLE语句创建格,并定义格的字段、数据类型和分隔符等。 - 查询数据:使用SELECT语句查询数据,并可以使用WHERE、GROUP BY、HAVING和ORDER BY等关键字进行数据筛选和排序。 - 数据的导入和导出:使用LOAD DATA和INSERT INTO语句将数据导入到格中,使用INSERT OVERWRITE语句将格中的数据导出。 3. 高级Hive操作 - 分区:使用CREATE TABLE语句创建分区格,并定义分区字段,可以提高查询效率。 - Hive内置函数:Hive提供了许多内置函数,如数学函数、字符串函数、日期函数等,可以方便地进行数据处理。 - UDF函数:Hive还支持用户自定义函数(UDF),可以根据实际需求编写自己的函数。 - 数据倾斜问题的解决:在处理大数据时,可能会出现数据倾斜的情况,可以通过调整数据分布、增加Reducer数量等方式解决。 4. Hive优化 - Hive优化的原则:Hive优化的原则是尽量减少数据的IO操作和网络传输,提高查询效率。 - 数据压缩:可以使用压缩算法对数据进行压缩,减少IO操作和网络传输。 - 数据倾斜问题的解决:通过调整数据分布、增加Reducer数量等方式解决。 - 数据分区:使用分区格,可以将数据分成多个小块,提高查询效率。 5. Hive的应用场景 - OLAP分析:Hive可以用于OLAP分析,如数据仓库的构建和数据分析等。 - 日志分析:Hive可以用于对大量日志数据进行分析,如用户行为分析、错误分析等。 - 推荐系统:Hive可以用于推荐系统的构建和数据分析。 6. 实验结果及分析:根据具体的实验设计,进行实验并记录数据和结果,对数据进行分析和解释。 7. 总结:总结实验的目的、方法、结果和结论,提出下一步的改进方向和建议。 希望以上步骤可以帮助您完成Hive的部署与应用实验。如有任何问题,请随时告诉我。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

-北天-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值