FileInputFormat.setInputPaths多路径读取规则

FileInputFormat.setInputPaths(job, input1, input2);
在读取文件时候,默认先读单个大文件所在的路径(一次性读清该文件下所有文件),后读小文件所在路径。

写协同过滤时候,想让 setInputPaths方法先读第一个输入路径input1,再读第二个输出路径input2
就算把文件位置交换,读取的顺序还是错误
public static class myMapper extends Mapper<LongWritable, Text, Text, Text> {
		@SuppressWarnings("rawtypes")
		private final static Map<Integer, List> cooccurrenceMatrix = new HashMap<Integer, List>();// 同现矩阵

		Text k = new Text();
		Text v = new Text();

		@SuppressWarnings("unchecked")
		@Override
		protected void map(LongWritable key, Text values,
				Mapper<LongWritable, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {

			String[] lists = values.toString().split("[\t,]");

			// 同现矩阵时候,v1存的是书本id 书本id v2存的是权值。
			// 用户评分矩阵,v1存的是书本号 v2存的是用户id 用户评分
			String[] v1 = lists[0].split(":");
			String[] v2 = lists[1].split(":");

			if (v1.length > 1) {// 需要先读到cooccurrence同现矩阵
				int itemID1 = Integer.parseInt(v1[0]);// 横轴
				int itemID2 = Integer.parseInt(v1[1]);// 纵轴

				int num = Integer.parseInt(v2[0]);// 权重

				List<Cooccurrence> list = null;
				if (!cooccurrenceMatrix.containsKey(itemID1))
					list = new ArrayList<Cooccurrence>();
				else
					list = cooccurrenceMatrix.get(itemID1);

				list.add(new Cooccurrence(itemID1, itemID2, num));
				cooccurrenceMatrix.put(itemID1, list);// 以横坐标书号为key 存储同现矩阵
			}

			if (v2.length > 1) {// userVector用户评价矩阵

				int itemID = Integer.parseInt(v1[0]);// 物品id
				String userID = v2[0];// 用户id
				double pref = Double.parseDouble(v2[1]);// 用户评分

				k.set(userID);

				if (cooccurrenceMatrix.containsKey(itemID)) {
					Iterator<Cooccurrence> iterator = cooccurrenceMatrix.get(
							itemID).iterator();

					while (iterator.hasNext()) {
						Cooccurrence co = iterator.next();

						v.set(co.getItemID2() + "," + pref * co.getNum());
						context.write(k, v);
					}

				}
			}
		}
	}

百度了半天没结果,然后自己琢磨。
自己捣鼓了半天后,把大文件进行了切块。然后读取正确。


ok,上结论:

FileInputFormat.setInputPaths(job, input1, input2);在读取文件时候,默认先读单个大文件所在的路径(一次性读清),后读
小文件所在路径。


协同过滤的代码参考的是https://blog.csdn.net/pang_hailong/article/details/53046330?locationNum=12&fps=1

开始时候还不明白为什么把step3里边把同现矩阵重写一遍,然后分析70m的豆瓣数据时候看了step2和step3_2的区别,就是将数据进行了切割,保证了先读step3_1里边的数据,后读step3_2里边的数据。

就是这样,小萌新第一次写博客,请大神们多多指教。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: fileinputformat.setinputpaths是一个Hadoop MapReduce中的函数,用于设置输入文件的路径。它可以接受一个或多个文件路径作为参数,并将这些路径设置为MapReduce作业的输入路径。在MapReduce作业运行时,它将从这些路径中读取输入数据,并将其分配给Map任务进行处理。 ### 回答2: FileInputFormat.setInputPaths方法是Hadoop中Map Reduce输入数据的一个常用方法,它可以设置输入路径,用来指定Map Reduce任务要处理的数据源。 在Hadoop中,如果需要使用Map Reduce处理数据,我们需要将数据先存储到HDFS或者本地文件系统中,然后才能进行Map Reduce的操作。在Map Reduce中,要使用数据源,就需要使用FileInputFormat.setInputPaths方法来设置输入路径。 在使用FileInputFormat.setInputPaths方法时,可以传入一个或多个路径,这些路径可以是HDFS中存储的路径,也可以是本地文件系统中的路径。设置多个输入路径时,使用逗号分隔。 FileInputFormat.setInputPaths方法支持多种数据输入格式,如TextInputFormat、SequenceFileInputFormat、KeyValueTextInputFormat等。在使用不同的输入格式时,需要注意输入路径的设置方式可能会有所不同。 总之,FileInputFormat.setInputPaths方法是Hadoop中Map Reduce的重要组成部分,它允许我们指定要处理的数据源,让Map Reduce能够处理大量的数据。使用FileInputFormat.setInputPaths方法时需要根据不同的输入数据格式进行适当的设置,在使用时需要仔细阅读相关的文档和示例代码。 ### 回答3: fileinputformat.setinputpaths是Hadoop MapReduce中的一个函数,用于将输入路径设置为需要读取的文件或目录的路径。在MapReduce程序中,文件输入通常是Mapper任务所需的数据。输入路径可以是一个文件或一个目录。 在Hadoop集群中,文件通常被存储在HDFS(Hadoop分布式文件系统)中,输入路径可以是HDFS中的文件或目录。如果输入路径是一个目录,MapReduce框架将读取目录中的所有文件,包括子目录中的文件。如果HDFS中的文件是被分为多个块存储的,则MapReduce框架将在所有块上启动Mapper任务。 需要注意的是,如果在程序中设置多个输入路径,则MapReduce框架将读取所有路径中的文件,对于每个输入路径,MapReduce框架将启动一个Mapper任务。然而,如果我们希望从所有输入路径的所有文件中生成一个统一的输出,则需要通过使用同一个Reducer任务进行聚合。 使用fileinputformat.setinputpaths函数设置输入路径是MapReduce程序的一个重要部分。正确设置输入路径可以确保程序能够从正确的文件或目录中读取输入数据,这是确保程序能够运行成功的基础。同时,正确设置输入路径也可以提高程序的性能,从而更快地完成任务。因此,在编写MapReduce程序时,应仔细选择输入路径,并使用fileinputformat.setinputpaths函数进行正确设置。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值