Hive数据库及表操作

数仓原理以及Hive入门:

数仓原理:数仓(Data Warehouse)是用于支持企业决策的数据存储和分析系统。数仓原理包括以下几个方面:

1. 数据抽取(Extraction):从各个业务系统中抽取数据,并进行清洗和转换,以适应数仓的数据模型。

2. 数据存储(Storage):将清洗和转换后的数据存储到数仓中,通常使用关系型数据库或大数据存储技术来存储大量的数据。

3. 数据整合(Integration):将不同数据源中的数据进行整合,消除冗余和重复,并保证数据的一致性和准确性。

4. 数据建模(Modeling):设计数仓的数据模型,包括维度模型和事实模型,以便进行数据分析和报表生成。

5. 数据分析(Analysis):通过查询和分析数仓中的数据,提供对业务指标和趋势的理解和洞察,从而支持企业决策。

Hive入门:Hive是一种基于Hadoop的数据仓库基础架构,它提供了一个类似于SQL的查询语言,可以将查询转化为MapReduce任务在Hadoop集群上执行,以实现对大规模数据的分析。

Hive的入门步骤如下:

1. 安装Hive:首先要安装Hive软件包,可以在Hive官方网站上下载最新版本。

2. 配置Hive:配置Hive的环境变量,包括Hive的安装路径、Hadoop的安装路径、以及其他相关配置。

安装配置Hive可以参看之前发布的博客:

https://blog.csdn.net/qq_69558236/article/details/136549349?spm=1001.2014.3001.5502

3. 创建Hive表:使用Hive的查询语言(HiveQL),可以创建表格,并指定表的结构、字段类型和分区等信息。

4. 导入数据:将数据导入到Hive表中,可以使用HiveQL的LOAD命令或INSERT INTO语句。

5. 查询数据:使用HiveQL语句进行数据查询和分析,类似于SQL语言。

6. 优化性能:通过使用Hive的分区、索引、压缩等技术,可以优化查询性能。

7. 执行MapReduce任务:Hive将查询转化为MapReduce任务在Hadoop集群上执行,可以查看任务的执行日志和监控进度。

这些是Hive的基本入门步骤,通过学习和实践,可以深入了解Hive的高级功能和应用。

创建Hive数据库,简单的增删改查操作:

Hive是一个构建在Hadoop上的数据仓库和查询工具,允许用户使用类似于SQL的语言进行数据查询和分析。Hive支持类似于关系型数据库的表操作,包括创建表、插入数据、查询数据、修改数据等。

以下是一些常见的Hive数据库及表操作:

1. 创建数据库:使用CREATE DATABASE语句创建一个新的数据库。例如:
```
CREATE DATABASE mydatabase;
```
2. 使用数据库:使用USE语句选择要使用的数据库。例如:
```
USE mydatabase;
```
3. 创建表:使用CREATE TABLE语句创建一个新的表。例如:
```
CREATE TABLE mytable (
  column1 INT,
  column2 STRING,
  column3 DOUBLE
);
```
4. 插入数据:使用INSERT INTO语句将数据插入到表中。例如:
```
INSERT INTO mytable VALUES (1, 'Hello', 3.14);
INSERT INTO mytable VALUES (2, 'World', 2.78);
```
5. 查询数据:使用SELECT语句从表中检索数据。例如:
```
INSERT INTO mytable VALUES (1, 'Hello', 3.14);
INSERT INTO mytable VALUES (2, 'World', 2.78);
```
6. 修改数据:使用INSERT OVERWRITE语句覆盖表中的数据。例如:
```
INSERT OVERWRITE mytable VALUES (3, 'Hive', 1.23);
```
7. 更新数据:使用UPDATE语句更新表中的数据。例如:
```
UPDATE mytable SET column2 = 'Updated' WHERE column1 = 2;
```
8. 删除数据:使用DELETE语句从表中删除数据。例如:
```
DELETE FROM mytable WHERE column1 = 3;
```

这些是Hive中常见的数据库及表操作。通过这些操作,可以管理和操作Hive中的数据。

Hive Shell的常用命令:

        1. `hive`:启动Hive Shell。

        2. `show databases;`:显示所有数据库。

        3. `use database_name;`:选择使用指定的数据库。

        4. `show tables;`:显示当前数据库中的所有表。

        5. `describe table_name;`:显示表的结构和元数据信息。

        6. `create table table_name(column1 data_type, column2 data_type, ...);`:创建一个新表。

        7. `drop table table_name;`:删除指定的表。

        8. `select * from table_name;`:查询表中的所有数据。

        9. `select column1, column2 from table_name where condition;`:查询表中满足条件的数据。

        10. `insert into table_name values(value1, value2, ...);`:向表中插入数据。

        11. `alter table table_name add columns(column_name data_type);`:向表中添加新的列。

        12. `alter table table_name rename to new_table_name;`:重命名表。

        13. `alter table table_name drop column column_name;`:从表中删除指定的列。

        14. `load data local inpath 'file_path' into table table_name;`:将本地文件中的数据加载到表中。

        15. `set hive.execution.engine=tez;`:设置Hive的执行引擎为Tez。

这些是一些常见的Hive Shell命令,可以帮助您在Hive中进行数据库和表操作、数据查询和插入等。

Hive DDL操作:

DDL操作(数据定义语言)用于创建、修改和删除数据库、表、分区等对象。

常见的DDL操作包括:

1. 创建数据库:CREATE DATABASE database_name;
2. 创建表:CREATE TABLE table_name (column_name data_type, ...);
3. 修改表结构:ALTER TABLE table_name ADD|DROP|RENAME COLUMN column_name;
4. 删除表:DROP TABLE table_name;
5. 创建分区:ALTER TABLE table_name ADD PARTITION (partition_spec);
6. 删除分区:ALTER TABLE table_name DROP PARTITION (partition_spec);

Hive DML操作:

DML操作(数据操作语言)用于查询、插入、更新和删除数据。

常见的DML操作包括:

1. 查询数据:SELECT column_name FROM table_name WHERE condition;
2. 插入数据:INSERT INTO table_name VALUES (value1, value2, ...);
3. 更新数据:UPDATE table_name SET column_name = new_value WHERE condition;
4. 删除数据:DELETE FROM table_name WHERE condition;

需要注意的是,Hive的DML操作仅支持追加写入(Append-only),即不能更新或删除已有数据,只能插入新数据。如果需要更新或删除已有数据,可以通过创建新表,然后将需要更新或删除的数据过滤掉,再将新数据插入到新表中。

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值