MapReduce案例----影评分析（年份，电影id，电影名字，平均评分）

最新推荐文章于 2022-10-02 09:22:44 发布

转载

最新推荐文章于 2022-10-02 09:22:44 发布 · 2.3k 阅读

21 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/hong-bo/p/11448207.html

文章标签：

#大数据 #java

该博客介绍了使用MapReduce进行影评分析的案例，通过处理数据计算电影ID的平均评分，并利用内存中的中间表进行Map Join。内容包括Map阶段处理movies.dat数据，获取电影年份和平均评分，然后依据评分排序和年份分区，确保相同年份的电影在同一个文件中。博客还展示了平均评分的代码片段及部分运行结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：

 1 现有如此三份数据：（这里只需用后两份）
 2 1、users.dat    数据格式为：  2::M::56::16::70072
 3 对应字段为：UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String
 4 对应字段中文解释：用户id，性别，年龄，职业，邮政编码
 5  
 6 2、movies.dat        数据格式为：1::Toy Story (1995)::Animation|Children's|Comedy  ；  2::Jumanji (1995)::Adventure|Children's|Fantasy  ；  3::Grumpier Old Men (1995)::Comedy|Romance

 7 对应字段为：MovieID BigInt, Title String, Genres String
 8 对应字段中文解释：电影ID，电影名字，电影类型
 9  
10 3、ratings.dat        数据格式为：  1::1193::5::978300760  ；  1::661::3::978302109  ；  1::914::3::978301968
11 对应字段为：UserID BigInt, MovieID BigInt, Rating Double, Timestamped String
12 对应字段中文解释：用户ID，电影ID，评分，评分时间戳
13  
14 用户ID，电影ID，评分，评分时间戳，性别，年龄，职业，邮政编码，电影名字，电影类型
15 userid, movieId, rate, ts, gender, age, occupation, zipcode, movieName, movieType
16 需求：
17     关联两张表。
18     计算每部电影的平均评分，并按评分大小进行排序。评分一样，按照电影名排序。
19     （1）：按照年份进行分组，要求结果展示形式：
20         年份，电影id，电影名字，平均分。

思路：

　　首先从 ratings.dat 中计算出电影id，平均评分。得出一个中间表。

　　通过分析，中间表比 movis.dat 要小，所以优先考虑将中间表加载到内存中，写入到一个hashmap中，做 map join。

　　Map 端处理movies.dat 中的数据，根据电影 id 关联 hashmap，得到该电影的平均评分，并提取出电影的年份。

　　将年份，电影id，电影名字，平均评分封装到一个对象中，然后自定义排序规则。按照电影平均评分大小排序。

　　然后自定义分区，将相同年份的分到一个分区中。使得相同年份的数据出现在一个文件中。

求出平均评分代码：

 1 package com.lhb.demo;
 2 import org.apache.hadoop.conf.Configuration;
 3 import org.apache.hadoop.fs.FileSystem;
 4 import org.apache.hadoop.fs.Path;
 5 import org.apache.hadoop.io.DoubleWritable;
 6 import org.apache.hadoop.io.LongWritable;
 7 import org.apache.hadoop.io.Text;
 8 import org.apache.hadoop.mapreduce.Job;
 9 import org.apache.hadoop.mapreduce.Mapper;
10 import org.apache.hadoop.mapreduce.Reducer;
11 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
12 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
13 import java.io.IOException;
14 
15 public class Test1AvgRate {
16     //map端
17     public static class Test1AvgRateMapper extends Mapper<LongWritable, Text, LongWritable, DoubleWritable> {
18         protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
19             String[] split = value.toString().split("::");
20             if (split.length >= 4) {
21                 context.write(new LongWritable(Long.valueOf(split[1])), new DoubleWritable(Double.valueOf(split[2])));
22             }
23         }
24     }
25     //reducer端
26     public static class Test1AvgRateReducer extends Reducer<LongWritable, DoubleWritable, LongWritable, DoubleWritable> {