多次读取reduce函数中迭代器的数据

最新推荐文章于 2023-08-29 16:23:17 发布

李格非

最新推荐文章于 2023-08-29 16:23:17 发布

阅读量1.5k

点赞数 1

分类专栏： Hadoop 文章标签： hadoop mapreduce 迭代器一次

本文链接：https://blog.csdn.net/leegh1992/article/details/51396457

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

spark，hadoop交流群，QQ群号：521066396，欢迎加入共同学习，一起进步~

第一次碰到读取reduce函数中迭代器的数据只能取一次的问题。为了优化，在reduce函数中，Iterable values只能被读取一次。查阅相关资料，如果要反复使用，需要克隆或者新生成对象。举个简单例子：
如果在reduce函数中读过values，

for (Text value : values) {
    //do what you want
}

当reduce将数据填充到值迭代器的时候，应用了对象重用。这个特性对缓存机制有潜在影响。如果还想再使用values，那么需要克隆或保存新的对象。

List<Text> lists = new ArrayList<Text>();
Iterator<Text> iter = values.iterator();
while (iter.hasNext()) {
    lists.add(iter.next());
}

下面是采用克隆的方式。

//创建一个集合，存放
ArrayList<Text> list = new ArrayList<Text>();
for (Text value : values) {
    //克隆
    Text text = WritableUtils.clone(value,context.getConfiguration());
    list.add(text);
}

李格非

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
多次读取reduce函数中迭代器的数据

spark，hadoop交流群，QQ群号：521066396，欢迎加入共同学习，一起进步~第一次碰到读取reduce函数中迭代器的数据只能取一次的问题。为了优化，在reduce函数中，Iterable values只能被读取一次。查阅相关资料，如果要反复使用，需要克隆或者新生成对象。举个简单例子：如果在reduce函数中读过values，for (Text value : values) {
复制链接

扫一扫

专栏目录