Hive数据库及表操作

最新推荐文章于 2024-07-27 17:38:38 发布

亦576

最新推荐文章于 2024-07-27 17:38:38 发布

阅读量871

点赞数 10

文章标签： hive 数据库 hadoop

本文链接：https://blog.csdn.net/qq_69558236/article/details/137448907

版权

数仓原理以及Hive入门：

数仓原理：数仓（Data Warehouse）是用于支持企业决策的数据存储和分析系统。数仓原理包括以下几个方面：

1. 数据抽取（Extraction）：从各个业务系统中抽取数据，并进行清洗和转换，以适应数仓的数据模型。

2. 数据存储（Storage）：将清洗和转换后的数据存储到数仓中，通常使用关系型数据库或大数据存储技术来存储大量的数据。

3. 数据整合（Integration）：将不同数据源中的数据进行整合，消除冗余和重复，并保证数据的一致性和准确性。

4. 数据建模（Modeling）：设计数仓的数据模型，包括维度模型和事实模型，以便进行数据分析和报表生成。

5. 数据分析（Analysis）：通过查询和分析数仓中的数据，提供对业务指标和趋势的理解和洞察，从而支持企业决策。

Hive入门：Hive是一种基于Hadoop的数据仓库基础架构，它提供了一个类似于SQL的查询语言，可以将查询转化为MapReduce任务在Hadoop集群上执行，以实现对大规模数据的分析。

Hive的入门步骤如下：

1. 安装Hive：首先要安装Hive软件包，可以在Hive官方网站上下载最新版本。

2. 配置Hive：配置Hive的环境变量，包括Hive的安装路径、Hadoop的安装路径、以及其他相关配置。

安装配置Hive可以参看之前发布的博客：

https://blog.csdn.net/qq_69558236/article/details/136549349?spm=1001.2014.3001.5502

3. 创建Hive表：使用Hive的查询语言（HiveQL），可以创建表格，并指定表的结构、字段类型和分区等信息。

4. 导入数据：将数据导入到Hive表中，可以使用HiveQL的LOAD命令或INSERT INTO语句。

5. 查询数据：使用HiveQL语句进行数据查询和分析，类似于SQL语言。

6. 优化性能：通过使用Hive的分区、索引、压缩等技术，可以优化查询性能。

7. 执行MapReduce任务：Hive将查询转化为MapReduce任务在Hadoop集群上执行，可以查看任务的执行日志和监控进度。

这些是Hive的基本入门步骤，通过学习和实践，可以深入了解Hive的高级功能和应用。

创建Hive数据库，简单的增删改查操作：

Hive是一个构建在Hadoop上的数据仓库和查询工具，允许用户使用类似于SQL的语言进行数据查询和分析。Hive支持类似于关系型数据库的表操作，包括创建表、插入数据、查询数据、修改数据等。

以下是一些常见的Hive数据库及表操作：

1. 创建数据库：使用CREATE DATABASE语句创建一个新的数据库。例如：

```
CREATE DATABASE mydatabase;
```

2. 使用数据库：使用USE语句选择要使用的数据库。例如：

```
USE mydatabase;
```

3. 创建表：使用CREATE TABLE语句创建一个新的表。例如：

```
CREATE TABLE mytable (
  column1 INT,
  column2 STRING,
  column3 DOUBLE
);
```

4. 插入数据：使用INSERT INTO语句将数据插入到表中。例如：

```
INSERT INTO mytable VALUES (1, 'Hello', 3.14);
INSERT INTO mytable VALUES (2, 'World', 2.78);
```

5. 查询数据：使用SELECT语句从表中检索数据。例如：

```
INSERT INTO mytable VALUES (1, 'Hello', 3.14);
INSERT INTO mytable VALUES (2, 'World', 2.78);
```

6. 修改数据：使用INSERT OVERWRITE语句覆盖表中的数据。例如：

```
INSERT OVERWRITE mytable VALUES (3, 'Hive', 1.23);
```

7. 更新数据：使用UPDATE语句更新表中的数据。例如：

```
UPDATE mytable SET column2 = 'Updated' WHERE column1 = 2;
```

8. 删除数据：使用DELETE语句从表中删除数据。例如：

```
DELETE FROM mytable WHERE column1 = 3;
```

这些是Hive中常见的数据库及表操作。通过这些操作，可以管理和操作Hive中的数据。

Hive Shell的常用命令：

1. `hive`：启动Hive Shell。

2. `show databases;`：显示所有数据库。

3. `use database_name;`：选择使用指定的数据库。

4. `show tables;`：显示当前数据库中的所有表。

5. `describe table_name;`：显示表的结构和元数据信息。

6. `create table table_name(column1 data_type, column2 data_type, ...);`：创建一个新表。

7. `drop table table_name;`：删除指定的表。

8. `select * from table_name;`：查询表中的所有数据。

9. `select column1, column2 from table_name where condition;`：查询表中满足条件的数据。

10. `insert into table_name values(value1, value2, ...);`：向表中插入数据。

11. `alter table table_name add columns(column_name data_type);`：向表中添加新的列。

12. `alter table table_name rename to new_table_name;`：重命名表。

13. `alter table table_name drop column column_name;`：从表中删除指定的列。

14. `load data local inpath 'file_path' into table table_name;`：将本地文件中的数据加载到表中。

15. `set hive.execution.engine=tez;`：设置Hive的执行引擎为Tez。

这些是一些常见的Hive Shell命令，可以帮助您在Hive中进行数据库和表操作、数据查询和插入等。

Hive DDL操作：

DDL操作（数据定义语言）用于创建、修改和删除数据库、表、分区等对象。

常见的DDL操作包括：

1. 创建数据库：CREATE DATABASE database_name;
2. 创建表：CREATE TABLE table_name (column_name data_type, ...);
3. 修改表结构：ALTER TABLE table_name ADD|DROP|RENAME COLUMN column_name;
4. 删除表：DROP TABLE table_name;
5. 创建分区：ALTER TABLE table_name ADD PARTITION (partition_spec);
6. 删除分区：ALTER TABLE table_name DROP PARTITION (partition_spec);

Hive DML操作：

DML操作（数据操作语言）用于查询、插入、更新和删除数据。

常见的DML操作包括：

1. 查询数据：SELECT column_name FROM table_name WHERE condition;
2. 插入数据：INSERT INTO table_name VALUES (value1, value2, ...);
3. 更新数据：UPDATE table_name SET column_name = new_value WHERE condition;
4. 删除数据：DELETE FROM table_name WHERE condition;

需要注意的是，Hive的DML操作仅支持追加写入（Append-only），即不能更新或删除已有数据，只能插入新数据。如果需要更新或删除已有数据，可以通过创建新表，然后将需要更新或删除的数据过滤掉，再将新数据插入到新表中。

亦576

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Hive数据库及表操作

常见的DDL操作包括：1. 创建数据库：CREATE DATABASE database_name;2. 创建表：CREATE TABLE table_name (column_name data_type, ...);3. 修改表结构：ALTER TABLE table_name ADD|DROP|RENAME COLUMN column_name;4. 删除表：DROP TABLE table_name;
复制链接

扫一扫