专利引用关系数据集分析

最新推荐文章于 2023-09-08 20:17:05 发布

m0_49766582

最新推荐文章于 2023-09-08 20:17:05 发布

阅读量662

点赞数

分类专栏：笔记文章标签： mapreduce hadoop hdfs

本文链接：https://blog.csdn.net/m0_49766582/article/details/122627646

版权

使用Hadoop MapReduce框架，通过修改词频统计和倒排索引代码，实现对专利引用关系数据集的分析。在Map阶段，将输入的专利引用数据按‘，’分隔，Mapper处理后输出被引用的专利。Reduce阶段则计算每个专利被引用的次数，输出专利及其引用列表。

摘要由CSDN通过智能技术生成

             专利引用关系数据集分析

这次实验的两个题目，一个可以由词频统计代码改编，一个由倒排索引改编，改编的重点是将每一排的两个输入分开。
输出专利被引用次数统计结果：
根据题目要求需要输出被引用的专利和它的次数，在wordcount的基础上使用.split(",")方法，可以将一排输入的专利和被引用的专利以‘，’为间隔分开。存入字符串strs中。strs[0]为专利，strs[1]为被引用的专利。
package wordcount;
//导入必要的package
import java.io.IOException; //报错类
import java.util.StringTokenizer; //StringTokenizer类，用于将空白字符作为分割符的类

import org.apache.hadoop.conf.Configuration;//Hadoop中用于读取配置信息的类
import org.apache.hadoop.fs.Path; //有关文件系统输入输出数据的类
import org.apache.hadoop.io.IntWritable; //封装定义了IntWritable类
import org.apache.hadoop.io.Text; //封装定义了Text类
import org.apache.hadoop.mapreduce.Job; //封装定义了Job类
import org.apache.hadoop.mapreduce.Mapper; //封装定义了Mapper类
import org.apache.hadoop.mapreduce.Reducer; //封装定义了Reducer类
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; //文件输入要用到的类
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; //文件输出要用到的类
import org.apache.hadoop.util.GenericOptionsParser; //GenericOptionsParser类，用来解释常用hadoop命令，并根据需要为Configuration对象设置相应的值

public class zhuanlicishu{

public static class TokenizerMapper 
extends Mapper<Object, Text, Text, IntWritable>{         //自定义的TokenizerMapper类，继承自前面导入的Mapper类

private final static IntWritable one = new IntWritable(1); //实例化了一个IntWritable类的one对象并赋值为常量1
private Text word = new Text(); //实例化了一个Text类的对象word

public void map(Object key, Text value, Context context //定义Map方法
) throws IOException, InterruptedException {

//这里说一下context类，它是Mapper的一个内部类，它用来与MapReduce系统进行通信，如把map的结果传给reduce处理。简单的说顶级接口用它在map或是reduce任务中跟踪task的状态，MapContext就是记录了map执行的上下文，在mapper类中，这个context可以存储一些j