Hive调优及Hive综合案例（3）-CSDN博客

本文详细介绍了Hive的简单调优技巧，包括Fetch抓取、本地模式和严格模式，并通过影评数据集进行实战演练，包括数据清洗、建表、数据导入和多种复杂查询的实现，如评分次数最多的电影、性别评分最高电影等。此外，还探讨了气温指数分析的需求和解决方案，展示了如何在Hive中处理此类问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、Hive调优(简单)
二、Hive综合案例之影评
三、Hive综合案例之气温指数分析
四、Hive综合案例之学生选课统计
❤ღ( ´･ᴗ･` )比心

前言

你们好我是啊晨
今儿更新hive技术
废话不多说，内容很多选择阅读，详细。
请：

一、Hive调优(简单)

实际优化不止这些，后面会单独写hive优化的文章

1.1 Fetch抓取

Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。
在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走mapreduce。

<property>
    <name>hive.fetch.task.conversion</name>
    <value>more</value>
    <description>
      Expects one of [none, minimal, more].
      Some select queries can be converted to single FETCH task minimizing latency.
      Currently the query should be single sourced not having any subquery and should not have
      any aggregations or distincts (which incurs RS), lateral views and joins.
      0. none : disable hive.fetch.task.conversion
      1. minimal : SELECT STAR, FILTER on partition columns, LIMIT only
      2. more  : SELECT, FILTER, LIMIT only (support TABLESAMPLE and virtual columns)
    </description>
  </property>

案例实操：
1）把hive.fetch.task.conversion设置成none，然后执行查询语句，都会执行mapreduce程序。

hive (default)> set hive.fetch.task.conversion=none;
hive (default)> select * from emp;
hive (default)> select ename from emp;
hive (default)> select ename from emp limit 3;

2）把hive.fetch.task.conversion设置成more，然后执行查询语句，如下查询方式都不会执行mapreduce程序。

hive (default)> set hive.fetch.task.conversion=more;
hive (default)> select * from emp;
hive (default)> select ename from emp;
hive (default)> select ename from emp limit 3;

1.2 本地模式

大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。
用户可以通过设置hive.exec.mode.local.auto的值为true，来让Hive在适当的时候自动启动这个优化。

set hive.exec.mode.local.auto=true;  //开启本地mr
//设置local mr的最大输入数据量，当输入数据量小于这个值时采用local  mr的方式，默认为134217728，即128M
set hive.exec.mode.local.auto.inputbytes.max=50000000;
//设置local mr的最大输入文件个数，当输入文件个数小于这个值时采用local mr的方式，默认为4
set hive.exec.mode.local.auto.input.files.max=10;

案例实操：
1）开启本地模式，并执行查询语句

hive (default)> set hive.exec.mode.local.auto=true; 
hive (default)> select * from emp cluster by deptno;
Time taken: 1.328 seconds, Fetched: 14 row(s)

2）关闭本地模式，并执行查询语句

hive (default)> set hive.exec.mode.local.auto=false;
hive (default)> select * from emp distribute by deptno;
Time taken: 20.09 seconds, Fetched: 14 row(s)

1.3 严格模式

Hive提供了一个严格模式，可以防止用户执行那些可能意向不到的不好的影响的查询。
通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict，开启严格模式可以禁止特定的查询。

<property>
    <name>hive.mapred.mode</name>
    <value>strict</value>
    <description>
      The mode in which the Hive operations are being performed. 
      In strict mode, some risky queries are not allowed to run. They include:
        Cartesian Product.
        No partition being picked up for a query.
        Comparing bigints and strings.
        Comparing bigints and doubles.
        Orderby without limit.
</description>
</property>

（1）对于使用了order by语句的查询，要求必须使用limit语句。因为order by为了执行排序过程会将所有的结果数据分发到同一个Reducer中进行处理，强制要求用户增加这个LIMIT语句可以防止Reducer额外执行很长一段时间。
（2）限制笛卡尔积的查询。

二、Hive综合案例之影评

2.1 案例说明

2.1.1 数据说明

现有如下三份数据：
1、users.dat 数据格式为：2::M::56::16::70072，
共有6040条数据
对应字段为：UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String
对应字段中文解释：用户id，性别，年龄，职业，邮政编码

2、movies.dat 数据格式为： 2::Jumanji (1995)::Adventure|Children’s|Fantasy，
共有3883条数据
对应字段为：MovieID BigInt, Title String, Genres String
对应字段中文解释：电影ID，电影名字，电影类型

3、ratings.dat 数据格式为： 1::1193::5::978300760，
共有1000209条数据
对应字段为：UserID BigInt, MovieID BigInt, Rating Double, Timestamped String
对应字段中文解释：用户ID，电影ID，评分，评分时间戳

2.1.2 案例需求/要求

数据要求：
（1）清洗数据。（hive不支持解析多字节的分隔符，也就是说hive只能解析’:’, 不支持解析’::’，所以用普通方式建表来使用是行不通的，要求对数据做一次简单清洗）

（2）使用Hive能解析的方式进行
Hive要求：
　　（1）正确建表，导入数据（三张表，三份数据），并验证是否正确
　　（2）求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数）
　　（3）分别求男性，女性当中评分最高的10部电影（性别，电影名，影评分）
　　（4）求movieid = 2116这部电影各年龄段（因为年龄就只有7个，就按这7个分即可）的平均影评（年龄段，影评分）
　　（5）求最喜欢看电影（影评次数最多）的那位女性评最高分的10部电影的平均影评分（观影者，电影名，影评分）
　　（6）求好片（评分>=4.0）最多的那个年份的最好看的10部电影
　　（7）求1997年上映的电影中，评分最高的10部Comedy类电影
　　（8）该影评库中各种类型电影中评价最高的5部电影（类型，电影名，平均影评分）
　　（9）各年评分最高的电影类型（年份，类型，影评分）
　　（10）每个地区最高评分的电影名，把结果存入HDFS（地区，电影名，影评分）

2.1.3 数据准备

数据点击