Hive查询及常用查询函数

最新推荐文章于 2024-05-14 14:39:26 发布

StellaLiu萤窗小语

最新推荐文章于 2024-05-14 14:39:26 发布

阅读量442

点赞数

分类专栏：数据开发专栏 # hive 文章标签：数据仓库

本文链接：https://blog.csdn.net/anqi3776/article/details/110258740

版权

Hive

查询功能
一、排序
- 1.全局排序（order by）
- 2.每个MapReduce内部排序（Sort By）
3.分区排序（Distribute By）
4. Cluster By
二、分桶（分文件）
- 1.分桶表数据存储
- 2. 分桶抽样查询
函数
窗口函数（下一篇）
总结

查询功能

提示：这里可以添加本文要记录的大概内容：
例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

提示：以下是本篇文章正文内容，下面案例可供参考

一、排序

1.全局排序（order by）

2.每个MapReduce内部排序（Sort By）

Sort By：对于大规模的数据集order by的效率非常低。在很多情况下，并不需要全局排序，此时可以使用sort by。

Sort by为每个reducer产生一个排序文件。每个Reducer内部进行排序，对全局结果集来说不是排序。

设置reduce个数

hive (default)> set mapreduce.job.reduces=3;

查看设置reduce个数

hive (default)> set mapreduce.job.reduces;

根据部门编号降序查看员工信息

hive (default)> select * from emp sort by deptno desc;

将查询结果导入到文件中（按照部门编号降序排序）

hive (default)> insert overwrite local directory '/opt/module/datas/sortby-result'
select * from emp sort by deptno desc;

3.分区排序（Distribute By）

Distribute By：在有些情况下，我们需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。distribute by 子句可以做这件事。distribute by类似MR中partition（自定义分区），进行分区，结合sort by使用。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

案例实操：

先按照部门编号分区，再按照员工编号降序排序。

hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory '/opt/module/datas/distribute-result' 
select * from emp distribute by deptno sort by empno desc;

注意：

1． distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后，

最低0.47元/天解锁文章

StellaLiu萤窗小语

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive查询及常用查询函数

Hive查询功能一、排序1.全局排序（order by）2.每个MapReduce内部排序（Sort By）3.分区排序（Distribute By）4. Cluster By二、分桶（分文件）1.分桶表数据存储2. 分桶抽样查询函数空字段赋值NVLCASE WHEN行转列（多行转集合）CONCAT，列转行(集合拆多行）EXPLODE窗口函数（下一篇）总结查询功能提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就.
复制链接

扫一扫