专利数据 MapReduce基础程序的练习主要是对《专利引用》和《专利描述》两份数据进行分析。 下载地址: http://www.nber.org/patents/→下载acite75_99.zip和apat63_99.zip→在压缩包中提取cite75_99.txt(专利引用,如图1)和apat63_99.txt(专利描述,如图2) 图1专利引用部分截图 图2专利描述部分截图 专利引用数据涵盖了自1975年到1999年间对美国专利的引用。每行代表一份数据,第一个值代表专利编号,第二个值代表这个专利引用了哪个专利。另一个数据集:专利描述数据,其中包含了专利号、专利申请年份、专利批准年份、声明数目和其他与专利相关的元数据。 定义MapReduce作业→MyJob类(反向索引) 这个类的核心在run()方法中: ①实例化、配置并传递一个JobConf ②为每个作业定制基本参数(如Mapper,Reduce)