Hive数据仓库踏坑（下）

最新推荐文章于 2024-06-18 22:31:06 发布

TT15751097576

最新推荐文章于 2024-06-18 22:31:06 发布

阅读量274

点赞数

文章标签： Hive数据仓库踏坑（下）

本文链接：https://blog.csdn.net/TT15751097576/article/details/101003932

版权

本文详细介绍了Hive中的排序方式，包括全局排序Order By、内部排序Sort By、分区排序Distribute By以及Cluster By。同时，讲解了分桶表的创建与抽样查询，强调了分桶在数据管理中的作用。最后提到了Hive的CASE WHEN函数和窗口函数在实战中的应用，以及如何在Zeppelin上进行电子商务消费数据分析。

摘要由CSDN通过智能技术生成

Hive数据仓库踏坑（下）

Hive排序（Hive分析数据用的就是Map Reduce）

全局排序 Order By

Order By:全局排序，全局只有一个Reduce

1.使用ORDER BY子句排序

ASC（ascend）：升序（默认）

DESC（descend）：降序

2.ORDER BY 子句在SELECT语句的结尾

3.案列实操

（1）查询员工信息按工资升序排列

//按照工资列默认升序排列   关键字：order by
hive>select * from emp order by sal;

（2）查询员工按照工资降序排列

//只需要添加desc即可    关键字：desc
hive> select * from emp order by sal desc;

（3）按照别名排序

//按照员工薪水的2倍排列    别名：twosal
hive>select ename,sal*2 twosal from emp order by twosal;

(4)多个列排序

//按照部门和工资升序排列    swptno,sal
hive> select ename,deptno,sal from emp order by swptno,sal;

每个Map Reduce内部排序（Sort By）

Sort By :对于大规模的数据集order by的效率非常低，在很多情况下，斌不需要全局排序，此时可以使用sort by

Sort By为每一个reducer残生一个排序文件。每个Reducer内部进行排序，对全局结果集来所不是排序。

1.设置reduce个数

//默认三个
hive>set mapreduce.job.reduces=3;

2.查看设置reduce个数

hive>set mapreduce.job.reduces;

3.根据部门编号降序查看员工信息

hive>select * from emp sort by deptno desc;

4.将查询结果导入到文件中（按照部门编号降序排序）

hive>

最低0.47元/天解锁文章

TT15751097576

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫