实验——社交好友推荐实践

小鱼很精神

于 2023-04-20 17:38:58 发布

阅读量512

点赞数 2

文章标签： hadoop mapreduce

本文链接：https://blog.csdn.net/m0_68219172/article/details/130263458

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、实验原理
二、实验步骤
- 1.数据准备
- 2.编码
三、查看结果
总结

前言

基于Linux操作系统下搭建好的Hadoop环境以及Eclipse 开发环境，完成社交好友推荐的 MapReduce程序。

提示：以下是本篇文章正文内容，下面案例可供参考

一、实验原理

1．如果A和B具有好友关系，B和C具有好友关系，而A和C却不是好友关系，那么我们称A和C这样的关系为：二度好友关系。

在生活中，二度好友推荐的运用非常广泛，比如某些主流社交产品中都会有"可能认识的人"这样的功能，一般来说可能认识的人就是通过二度好友关系搜索得到的，在传统的关系型数据库中，可以通过图的广度优先遍历算法实现，而且深度限定为2，然而在海量的数据中，这样的遍历成本太大，所以有必要利用MapReduce编程模型来并行化。

初始数据如下：

A B

C D

E F

F G

B D

B C

map阶段得到的结果为：

Key：A Value：B

Key：B Value：A C D

Key：C Value：B D

Key：D Value：B C

Key：E Value：F

Key：F Value：E G

Key：G Value：F

Reduce阶段再将Value进行笛卡尔积运算就可以得到二度好友关系了

（笛卡尔积公式：A×B={(x,y)|x∈A∧y∈B}

例如，A={a,b}, B={0,1,2}，则

A×B={(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)} B×A={(0, a), (0, b), (1, a), (1, b), (2, a), (2, b)}）

原理图：

分析结果：

通过初始数据，假设有A、B、C、D、E、F、G七位同学，其中A与B是好友关系，C与D是好友关系，E 与F是好友关系，F与G是好友关系，B与D是好友关系，B与C是好友关系，通过分析A与B是好友，且B与 C也是好友，我们就认为A与C互为可能认识的人，向A与C互相推荐对方。

二、实验步骤

1.准备数据

1.准备数据，新建 friend_data.txt 文件，内容如下（注意数据之间以空格分割）

A B
C D
E F
F G
B D
B C

2.编码

1.Mapper代码：

package org.example_1;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class FriendMapper extends Mapper<LongWritable, Text,Text,Text> {
    @Override
    protected void map (LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //value 为 A B
        String line = value.toString();
        String[] split = line.split("\\s+"); //配置任意多个空白字符，包括空格、tab、换行、换页、回车
        //输出 A B
        context.write(new Text(split[0]),new Text(split[1]));
        //输出 B A
        context.write(new Text(split[1]),new Text(split[0]));
    }
}

2.Reducer代码：

package org.example_1;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;

import javax.naming.Context;
import java.io.IOException;
import java.util.HashSet;
import java.util.Iterator;

public class FriendReducer extends Reducer<Text,Text,Text,Text> {
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException{
        //去重，分析输入数据，其实无重复，防止数据异常，可添加
        HashSet<String> set = new HashSet<String>();
        for (Text v : values){
            set.add(v.toString());
        }
        if (set.size()>1){
            for (Iterator<String> i = set.iterator(); i.hasNext();) {
                String qqName = i.next();
                for (Iterator<String> j = set.iterator(); j.hasNext();){
                    String othrQqName = j.next();
                    if (!qqName.equals(othrQqName)){ //不是同一个账号，可以推荐
                        context.write(new Text(qqName),new Text(othrQqName));
                    }
                }
            }
        }
    }
}

3.Main代码：

package org.example_1;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class FriendMain {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        //1.创建一个job和任务入口
        Job job = Job.getInstance();
        //main 方式所在的class
        job.setJarByClass(FriendMain.class);

        //2。指定job的mapper和输出的类型<k2,v2>
        job.setMapperClass(FriendMapper.class); //指定Mapper类
        job.setMapOutputKeyClass(Text.class); //k2的类型
        job.setMapOutputValueClass(Text.class); //v2的类型

        //3.指定job的reducer和输出的类型<k4,v4>
        job.setReducerClass(FriendReducer.class); //指定Rapper类
        job.setOutputKeyClass(Text.class); //k4的类型
        job.setOutputValueClass(Text.class); //v4的类型

        //4.指定job的输入和输出
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        //本地运行
//        FileInputFormat.setInputPaths(job,new Path("D:\\DingDing\\TableHahoop\\input\\data1"));
//        FileOutputFormat.setOutputPath(job,new Path("D:\\DingDing\\TableHahoop\\output0000"));

        //5.执行job
        job.waitForCompletion(true);

    }
}

4.打包 jar 上传Linux系统

scp local_filename root@remote_ip:remote_folder

remote_ip 填开发板ip地址，remote_folder 填写开发板的目录，例如根目录 /home

5.Linux系统下搭建好的Hadoop环境下运行 jar 包

hadoop jar hdfs-api2012-1.0-SNAPSHOT.jar org.example_1.FriendMain /input/frien_data.txt /output/friend

三、查看结果

总结

通过编写社交好友推荐的MapReduce程序，加深笛卡尔积以及其结合MapReduce方式的理解，熟练掌握MapReduce程序在处理企业实际项目问题的方法。