Hive知识点（八） --排序

最新推荐文章于 2023-03-12 18:08:15 发布

小维_

最新推荐文章于 2023-03-12 18:08:15 发布

阅读量92

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/qq_38633279/article/details/107684963

版权

Hive 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.order by

select * from emp order by sal desc;   #降序
select * from emp order by sal asc;    #升序
order by:是对全局数据的一个排序，仅仅只有一个Reduce

2.sort by

set mapreduce.job.reduces=3;   #当设置为3.则数据的文件数量就为3
select * from emp sort by sal asc;   #表示对3个文件内部进行排序
例：
insert overwrite local directory '/home/hadoop/tmp/' select * from hive1.hive1 sort by sal asc;
将排序的数据导出到本地，然后进行查看，其中在tmp目录中会有3个文件，对文件里面的sal进行排序输出展示

3.distribute by

distribute by和sort by同时出现，且distribute by必须出现在sort by之前，先分区再排序

insert overwrite local directory '/home/hadoop/tmp' select * from hive1.hive1 distribute by depo sort by sal asc;
#首先是对depo进行分区排序，然后再对分区后的分区进行sal排序，且distribute by和sort by同时出现，且出现的顺序不能换

4.cluster by

当distribute by和sort by的字段相同时，就使用cluster by

insert overwrite local directory '/home/hadoop/tmp' select * from hive1.hive1 cluster by depo asc;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小维_

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive知识点总结--持续更新

wzc8961661的博客

02-06

2409

什么是Hive Hive是基于Hadoop的一个数据仓库工具，是将结构化数据文件映射称为一个数据表，并提供类SQL的查询功能 Hive的意义(最初研发的原因) 在Hadoop是个好软件，但是不好使用(学习成本高，坡度陡，难度大)的前提下降低了程序员使用Hadoop的学习成本，降低了难度或避免了去写MapReduce，提供快速开发的能力，减少开发人员的学习成本 Hive内部组成模块及作用 ...

Hive 之查询 03-排序

恋梦轩

04-02

460

记录了Hive查询中的排序的相关知识、

参与评论您还未登录，请先登录后发表或查看评论

1、hive实现全排序

weixin_30363981的博客

09-25

320

目的：设置了 3 个reduce，在最终生成的 3 个文件中，实现全局是按year升序，year相同则按温度降序排列启动hive 1、启动服务端，注意：删除掉hadoop脚本中的调试设置代码 hiveserver2 2、启动客户端 beeline !connect jdbc:hive2://localhost:10000/xxxxxx;auth=noSasl;　　...

Hive 知识整理--二

认真学代码的shell

09-28

580

标题1.数据库、数据仓库的区别联系：数据仓库是由数据库以一种方式组织起来的。区别：（1）数据库强调范式，尽可能减少冗余；数据仓库强调查询分析的速度，优化读取的操作，主要目的是做大量数据的查询。 (2) 数据库是行存储，数据仓库是列存储。（3）数据库面向事务的，在线交易处理（OLTP）数据仓库是面向主题的、集成、相对稳定、反应历史变化，存储历史数据（OLAP）。（4）数据仓库定期写入新...

大数据-hive知识点汇总

陆山右的技术博客

11-12

324

目录 · 概况 · 手工安装 · 引言 · 创建HDFS目录 · 创建元数据库 · 配置文件 · 测试 · 原理 · 架构 · 与关系型数据库对比 · API · WordCount · 命令 · 数据类型 · 文件存储格式 · 数据格式 · 数据库 ...

Hive基础知识点总结-DML

sofency'Blog

08-19

146

hive的修改表操作 alter table table_name rename to new_table_name 添加列信息 alter table dept_partition add columns(depedesc string); 更新列信息 alter table dept_partition change column deptdesc desc int; 替换列 alter table dept_partition replace columns(deptno string,dname s

hive知识点总结

weixin_50528552的博客

03-12

1408

hive知识点总结

HIVE----工作常用知识点

c_air_c的博客

09-09

303

Hive中常用的交互式命令 hive -help 查看交互式命令 hive -e 不进入hive的交互窗口执行sql语句; hive -f 执行脚本中的sql语句，其中使用>输出到指定目录下的文件当中(定时任务)； exit 先隐性提交数据，再退出； quit 不提交数据，退出；参数配置方式配置文件方式默认配置文件：hive-default.xml 用户自定义配置文件：hive-...

Hive知识点

qq_45831157的博客

07-19

1060

hive知识点，五天快速掌握，从小白到熟练掌握hql编写能力，hive大数据必不可少的海量结构化数据统计工具，值得拥有！！！

hive综合应用案例 - 用户搜索日志分析.zip

05-15

在这个文档中，我们可以预期会涵盖以下知识点： 1. **Hive环境搭建**：包括Hadoop集群的配置、Hive的安装与配置，以及Hive metastore的设置。 2. **日志数据格式**：解析用户搜索日志的标准格式，如CSV或JSON，...

Hive-Summit-2011-join.zip_hive

09-21

**详细知识点**： 1. **Hive Join操作**：Hive支持多种类型的Join，包括内连接（Inner Join）、左连接（Left Outer Join）、右连接（Right Outer Join）、全连接（Full Outer Join）以及自连接（Self Join）。在...

hive调优总结文档-hive tuning ppt

08-22

以下是对"Hive调优总结文档-hive tuning ppt"中可能涉及的多个知识点的详细阐述： 1. **元数据优化**： - **分区策略**：根据业务需求，合理设计分区字段，减少不必要的数据扫描，例如按日期、地区等进行分区。 -...

基于Ssm和Vue的电影网站源码电影网站代码（程序，中文注释）

09-29

电影网站-电影网站-电影网站-电影网站-电影网站-电影网站-电影网站-电影网站-电影网站-电影网站-电影网站-电影网站 1、资源说明：电影网站源码，本资源内项目代码都经过测试运行成功，功能ok的情况下才上传的。 2、适用人群：计算机相关专业(如计算计、信息安全、大数据、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工等学习者，作为参考资料，进行参考学习使用。 3、资源用途：本资源具有较高的学习借鉴价值，可以作为“参考资料”，注意不是“定制需求”，代码只能作为学习参考，不能完全复制照搬。需要有一定的基础，能够看懂代码，能够自行调试代码，能够自行添加功能修改代码。 4. 最新计算机软件毕业设计选题大全(文章底部有博主联系方式): https://blog.csdn.net/2301_79206800/article/details/135931154 技术栈、环境、工具、软件： ① 系统环境:Windows ② 开发语言：Java ③ 框架：Ssm ④ 架构:B/S、MVC ⑤ 开发环境:IDEA、JDK、Maven、Mysql ⑥ 数据库：mysql ⑦ 服

基于微盾品牌的VwFirewall防火墙设计源码

09-29

该项目为微盾品牌VwFirewall防火墙的完整设计源码，由342个文件组成，涵盖了多种编程语言和资源类型，包括55个头文件、40个GIF图像、34个ICO图标、33个C++源文件、27个PNG图片、21个BMP图像、19个PSD设计文件、12个数据文件、11个C源文件、8个可执行文件。该源码集合了C、C++、C、HTML、JavaScript和PHP等编程语言，适用于防火墙的安全防护设计开发。

高校推免报名基于Ssm和Mysql的高校推免报名代码（程序，中文注释）

最新发布

09-29

高校推免报名-高校推免报名-高校推免报名-高校推免报名-高校推免报名-高校推免报名-高校推免报名-高校推免报名-高校推免报名-高校推免报名-高校推免报名-高校推免报名 1、资源说明：高校推免报名源码，本资源内项目代码都经过测试运行成功，功能ok的情况下才上传的。 2、适用人群：计算机相关专业(如计算计、信息安全、大数据、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工等学习者，作为参考资料，进行参考学习使用。 3、资源用途：本资源具有较高的学习借鉴价值，可以作为“参考资料”，注意不是“定制需求”，代码只能作为学习参考，不能完全复制照搬。需要有一定的基础，能够看懂代码，能够自行调试代码，能够自行添加功能修改代码。 4. 最新计算机软件毕业设计选题大全(文章底部有博主联系方式): https://blog.csdn.net/2301_79206800/article/details/135931154 技术栈、环境、工具、软件： ① 系统环境:Windows ② 开发语言：Java ③ 框架：Ssm ④ 架构:B/S、MVC ⑤ 开发环境:IDEA、JDK、M

党务政务服务热线平台基于Ssm和Mysql的党务政务服务热线平台代码（程序，中文注释）

09-29

基于asp.net的教师工作量管理系统设计与实现.docx

09-29

基于asp.net的教师工作量管理系统设计与实现.docx

ESG批发零售行业白皮书

09-29

ESG批发零售行业白皮书

Hive面试关键知识点解析：元存储、排序与Join优化

"Apache Hive面试题" Apache Hive 是一个基于Hadoop的数据仓库...理解这些Hive面试题的关键知识点对于优化Hive查询性能和管理大数据存储至关重要。掌握这些概念有助于在实际工作中更高效地使用Hive进行大数据分析。