专利引用关系数据集分析

使用Hadoop MapReduce框架,通过修改词频统计和倒排索引代码,实现对专利引用关系数据集的分析。在Map阶段,将输入的专利引用数据按‘,’分隔,Mapper处理后输出被引用的专利。Reduce阶段则计算每个专利被引用的次数,输出专利及其引用列表。
摘要由CSDN通过智能技术生成
             专利引用关系数据集分析

这次实验的两个题目,一个可以由词频统计代码改编,一个由倒排索引改编,改编的重点是将每一排的两个输入分开。
输出专利被引用次数统计结果:
根据题目要求需要输出被引用的专利和它的次数,在wordcount的基础上使用.split(",")方法,可以将一排输入的专利和被引用的专利以‘,’为间隔分开。存入字符串strs中。strs[0]为专利,strs[1]为被引用的专利。
package wordcount;
//导入必要的package
import java.io.IOException; //报错类
import java.util.StringTokenizer; //StringTokenizer类,用于将空白字符作为分割符的类

import org.apache.hadoop.conf.Configuration;//Hadoop中用于读取配置信息的类
import org.apache.hadoop.fs.Path; //有关文件系统输入输出数据的类
import org.apache.hadoop.io.IntWritable; //封装定义了IntWritable类
import org.apache.hadoop.io.Text; //封装定义了Text类
import org.apache.hadoop.mapreduce.Job; //封装定义了Job类
import org.apache.hadoop.mapreduce.Mapper; //封装定义了Mapper类
import org.apache.hadoop.mapreduce.Reducer; //封装定义了Reducer类
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; //文件输入要用到的类
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; //文件输出要用到的类
import org.apache.hadoop.util.GenericOptionsParser; //GenericOptionsParser类,用来解释常用hadoop命令,并根据需要为Configuration对象设置相应的值

public class zhuanlicishu{

public static class TokenizerMapper 
extends Mapper<Object, Text, Text, IntWritable>{         //自定义的TokenizerMapper类,继承自前面导入的Mapper类

private final static IntWritable one = new IntWritable(1); //实例化了一个IntWritable类的one对象并赋值为常量1
private Text word = new Text(); //实例化了一个Text类的对象word

public void map(Object key, Text value, Context context //定义Map方法
) throws IOException, InterruptedException {

//这里说一下context类,它是Mapper的一个内部类,它用来与MapReduce系统进行通信,如把map的结果传给reduce处理。简单的说顶级接口用它在map或是reduce任务中跟踪task的状态,MapContext就是记录了map执行的上下文,在mapper类中,这个context可以存储一些j

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值