编写MapReduce基础程序

本文介绍了如何使用Hadoop MapReduce编写基础程序,以实现专利引用的反向索引。通过MapReduce作业MyJob,详细讲解了Mapper和Reducer的实现,并提供了在Eclipse中运行MapReduce程序的步骤,包括配置参数、创建项目、编写代码和查看结果。最后,展示了如何修改Reduce来统计每个专利被引用的次数。
摘要由CSDN通过智能技术生成

专利数据

      MapReduce基础程序的练习主要是对《专利引用》和《专利描述》两份数据进行分析。
      下载地址: http://www.nber.org/patents/→下载acite75_99.zip和apat63_99.zip→在压缩包中提取cite75_99.txt(专利引用,如图1)和apat63_99.txt(专利描述,如图2)


图1专利引用部分截图

图2专利描述部分截图

      专利引用数据涵盖了自1975年到1999年间对美国专利的引用。每行代表一份数据,第一个值代表专利编号,第二个值代表这个专利引用了哪个专利。另一个数据集:专利描述数据,其中包含了专利号、专利申请年份、专利批准年份、声明数目和其他与专利相关的元数据。

定义MapReduce作业→MyJob类(反向索引)

      这个类的核心在run()方法中:
              ①实例化、配置并传递一个JobConf
              ②为每个作业定制基本参数(如Mapper,Reduce)
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值