从java迭代器与集合之间的关系延申到hadoop中的应用

(1)Iterator模式是用于遍历集合类的标准访问方法。它可以把访问逻辑从不同类型的集合类中抽象出来,从而避免向客户端暴露集合的内部结构。
例如,如果没有使用Iterator,遍历一个数组的方法是使用索引:

 for(int i=0; i<array.size(); i++) { ... get(i) ... } 

客户端都必须事先知道集合的内部结构,访问代码和集合本身是紧耦合,无法将访问逻辑从集合类和客户端代码中分离出来,每一种集合对应一种遍历方法,客户端代码无法复用。
更恐怖的是,如果以后需要把ArrayList更换为LinkedList,则原来的客户端代码必须全部重写。
为解决以上问题,Iterator模式总是用同一种逻辑来遍历集合:

for(Iterator it = c.iterater(); it.hasNext(); ) { ... }

奥秘在于客户端自身不维护遍历集合的"指针",所有的内部状态(如当前元素位置,是否有下一个元素)都由Iterator来维护,而这个Iterator由集合类通过工厂方法生成,因此,它知道如何遍历整个集合。

客户端从不直接和集合类打交道,它总是控制Iterator,向它发送"向前",“向后”,"取当前元素"的命令,就可以间接遍历整个集合。

(2)以Java操作hadoop为例,递归列出指定目录下所有子文件夹中的文件

@Test
public void testLs() throws Exception {
    RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);
    while(listFiles.hasNext()){
		
    }
}

如果放入集合list:

1、如果文件数量巨大,那么将全部放入运行端的内存中,运行端会吃不消。

2、而且由于list巨大,传输将消耗大量时间。

这时候就需要使用迭代器,不再返回一个list对象,而是返回一个迭代器实例对象,然后调用hasnext()判断是否有下一个数据,有的情况下再调用next方法取数据。不再消耗大量内存。

参考文献:
https://blog.csdn.net/weixin_38702350/article/details/82184536
https://www.cnblogs.com/yf11/p/6699775.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值