Hive笔记整理

最新推荐文章于 2023-08-06 16:24:26 发布

ZZJ_

最新推荐文章于 2023-08-06 16:24:26 发布

阅读量210

点赞数

分类专栏：大数据笔记整理文章标签： Hive视图 Hive索引 Hive内置函数

本文链接：https://blog.csdn.net/qq_40262690/article/details/83997979

版权

本文详细介绍了Hive的视图和索引特性。视图包括其特点如不可修改、仅支持查询，以及创建视图的作用。在索引部分，解释了索引对优化查询性能的重要性，以及如何创建、查看和删除索引。此外，还提到了Hive数据读取规则、Beeline客户端和JDBC连接操作，以及Hive内置函数的使用，包括自定义UDF、UDAF和UDTF。

摘要由CSDN通过智能技术生成

Hive 视图

1、视图的特点：

①不支持物化视图
②只能查询，不能做加载数据操作 load data into
③视图的创建，只是保存一份元数据，查询视图时才执行对应的子查询
④view定义中若包含了ORDER BY/LIMIT语句，当查询视图时也进行ORDER BY/LIMIT语句操作，view当中定义的优先级更高
⑤view支持迭代视图
⑥一旦创建成功，无法修改

2、为什么创建视图？

select a.name,b.age from table1 a join table2 b on(a.id=b.id) => view
如果后期经常执行这个查询语句，每次都写麻烦
可以将长的SQL（数据表）与视图对应映射，每次查询这个视图就是执行了长的SQL语句

3、视图操作

#创建视图
CREATE VIEW  IF NOT EXISTS  view1 AS SELECT * FROM logtbl order by age;
#可以查看已经创建的视图
show tables
#删除视图
drop view view1

创建视图的时候不会启动MR任务
select * from view1;
但是在查询视图的时候会启动MR任务
视图的创建，只是保存一份元数据，查询视图时才执行对应的子查询

Hive 索引

索引

优化查询性能
若使用select * from table where age = 10;假设这个表的数据非常大，是有10个block组成
name查询的性能会很低
提高性能？
索引1（age > 10） block1(100,200) block2(200,389)
索引2（age = 10） block1(101,220) block2(200,389)
这个索引就类似目录

创建索引库，用于存放索引

create index t2_index on table psnbucket_partition(age) 
as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild 
in table t2_index_table;

索引库中只是保存一些元数据，比如对哪个字段创建索引，对哪个表创建索引等

alter index t2_index on psnbucket_partition rebuild;

这一步是真正的创建索引信息，并且存储到索引库中，若数据库有新增数据，也可以使用以上语句重建索引

查看索引库：

66 hdfs://zfg/user/hive_remote/warehouse/psnbucket_partition/height=188.0/000000_0 [0,30,60,90,120] 188.0
77 hdfs://zfg/user/hive_remote/warehouse/psnbucket_partition/height=188.0/