さとみ大好き-CSDN博客

原创【Hive】查询&函数

distribute by一般都和sort by一起使用，因为单独使用distribute by的话就只分区不排序，这样得到的每个文件都是无序的，而只使用sort by的话分区就不能指定，只能让输出的每一个文件都按照我们指定的字段进行排序。因为在底层其实是一个mr程序，几个map分别对数据进行排序，然后汇入reduce，又由于order by是全局排序，所以最后处理的数据一定会只进入一个reduce中，此时如果数据量很大的话，reduce就很可能会出现问题，所以在使用排序时最好别直接用。

2023-09-24 23:52:48 109 1

原创【Hive】服务部署和HQL

注意：若客户端或者hiveserver2等连接metastore服务的节点中，hive-stie.xml文件里即包含连接metastore服务的参数，又包含直接连接MySQL的参数，那么只会看连接metastore服务的参数，即此时还是独立运行模式，假如部署了metastore服务的节点未开启metastore服务，那么客户端或者hiveserver2即使进入了hive也同样无法使用hive sql。模拟用户的功能，默认是开启的。因此，需要将hiveserver2的启动用户设置为Hadoop的代理用户。

2023-09-17 20:38:36 98 1

原创【Hive】概述

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。将复杂的mr程序简化为hive sql，只使用一行代码就能实现与冗长的mr程序一样的效果，简单方便，易于理解。Hive是一个Hadoop客户端，用于将HQL（Hive SQL）转化成MapReduce程序。Hive中每张表的数据存储在HDFSHive分析数据底层的实现是MapReduce（也可配置为Spark或者Tez）执行程序运行在Yarn上。

2023-09-10 21:04:34 109 1

原创尚硅谷hadoop3.x-Yarn

ReduceTask从MapTask拉取对应分区的数据开始处理，当所有的ReduceTask都运行完毕，MrAppMaster便会向RM申请释放资源，即刚刚产生的所有东西包括自己全都释放掉。可以发现，容量调度器有的公平调度器全都有，而且公平调度器还有容量调度器没有的。由于容量调度器的队列的资源分配方式默认是FIFO，如果将公平资源调度器的队列的资源分配方式设置成FIFO，那么此时公平调度器就相当于是容量调度器。实际上大体和上面的Yarn工作机制差不多，之不多在开始和结束多了与HDFS的交互，即输入输出。

2023-08-06 18:39:28 196

m0_72924007的博客

原创【Hive】查询&函数

原创【Hive】服务部署和HQL

原创【Hive】概述

原创尚硅谷hadoop3.x-Yarn

原创尚硅谷hadoop3.x-MapReduce（4）

原创尚硅谷hadoop3.x-MapReduce（3）

原创尚硅谷hadoop3.x-MapReduce（2）

原创尚硅谷hadoop3.x-MapReduce（1）

原创尚硅谷hadoop3.x-HDFS（2）

原创尚硅谷hadoop3.x-HDFS（1）

原创尚硅谷Hadoop3.x-入门（2）

原创尚硅谷hadoop3.x-入门（1）

空空如也

空空如也