Hive工作中最常用的sql

丶稻香

于 2024-02-27 16:46:05 发布

阅读量258

点赞数 1

分类专栏：大数据相关文章标签： hive sql hadoop

本文链接：https://blog.csdn.net/qq_41395444/article/details/136326202

版权

大数据相关专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在Hive中，最常用的SQL语句与标准SQL非常相似，主要用于数据查询、数据转换和数据汇总。以下是一些Hive中最常用的SQL语句和概念：

创建表:

CREATE TABLE table_name (  
  column1 data_type,  
  column2 data_type,  
  ...  
)   
ROW FORMAT DELIMITED  
FIELDS TERMINATED BY ','  
STORED AS TEXTFILE;

注意：Hive还支持其他文件格式，如ORC、Parquet等，这些格式通常用于更高效的存储和查询。

加载数据:

LOAD DATA LOCAL INPATH '/path/to/local/file' INTO TABLE table_name;

或者从HDFS加载数据：

LOAD DATA INPATH '/path/to/hdfs/file' INTO TABLE table_name;

查询数据:

基本查询:

sql`SELECT * FROM table_name;`

带条件的查询:

sql`SELECT column1, column2 FROM table_name WHERE condition;`

排序:

sql`SELECT column1, column2 FROM table_name ORDER BY column1 DESC;`

分组与聚合:

sql`SELECT column1, COUNT(*) FROM table_name GROUP BY column1;`

连接查询:

sql`SELECT a.column1, b.column2   
FROM table1 a   
JOIN table2 b ON a.id = b.id;`

插入数据:

INSERT INTO TABLE table_name VALUES (value1, value2, ...);

或者从一个查询结果中插入：

INSERT INTO TABLE table1  
SELECT column1, column2 FROM table2 WHERE condition;

更新和删除

请注意，Hive原本不支持行级别的更新和删除。但是，随着Hive的发展，一些新版本或分支可能提供了这些功能。通常，Hive更适用于批量处理和读取大量数据，而不是OLTP场景。

创建分区表:

分区是Hive中优化查询性能的一种常用技术。通过分区，可以将表物理地分割成不同的段，从而加快查询速度。

CREATE TABLE partitioned_table (column1 data_type, ...)  
PARTITIONED BY (partition_column data_type)  
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','  
STORED AS TEXTFILE;

然后，你可以将数据加载到特定的分区中：

LOAD DATA LOCAL INPATH '/path/to/data' INTO TABLE partitioned_table PARTITION (partition_column='value');

创建桶表:

与分区类似，桶是Hive中用于优化查询性能的另一种技术。桶将数据根据某个列的哈希值分成一定数量的桶。

优化查询性能:

除了分区和桶之外，Hive还支持其他优化技术，如索引、压缩等。但是，请注意，Hive的主要设计目标是处理大数据，而不是提供实时查询性能。因此，在使用Hive时，应重点考虑批量处理和数据分析场景。

丶稻香

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive工作中最常用的sql

在Hive中，最常用的SQL语句与标准SQL非常相似，主要用于数据查询、数据转换和数据汇总。
复制链接

扫一扫

专栏目录