从java迭代器与集合之间的关系延申到hadoop中的应用

最新推荐文章于 2021-06-22 05:19:52 发布

LUK流

最新推荐文章于 2021-06-22 05:19:52 发布

阅读量251

点赞数

分类专栏： java基础知识文章标签：迭代器

java基础知识专栏收录该内容

11 篇文章 0 订阅

订阅专栏

(1)Iterator模式是用于遍历集合类的标准访问方法。它可以把访问逻辑从不同类型的集合类中抽象出来，从而避免向客户端暴露集合的内部结构。
例如，如果没有使用Iterator，遍历一个数组的方法是使用索引：

 for(int i=0; i<array.size(); i++) { ... get(i) ... }

客户端都必须事先知道集合的内部结构，访问代码和集合本身是紧耦合，无法将访问逻辑从集合类和客户端代码中分离出来，每一种集合对应一种遍历方法，客户端代码无法复用。
更恐怖的是，如果以后需要把ArrayList更换为LinkedList，则原来的客户端代码必须全部重写。
为解决以上问题，Iterator模式总是用同一种逻辑来遍历集合：

for(Iterator it = c.iterater(); it.hasNext(); ) { ... }

奥秘在于客户端自身不维护遍历集合的"指针"，所有的内部状态（如当前元素位置，是否有下一个元素）都由Iterator来维护，而这个Iterator由集合类通过工厂方法生成，因此，它知道如何遍历整个集合。

客户端从不直接和集合类打交道，它总是控制Iterator，向它发送"向前"，“向后”，"取当前元素"的命令，就可以间接遍历整个集合。

(2)以Java操作hadoop为例，递归列出指定目录下所有子文件夹中的文件

@Test
public void testLs() throws Exception {
    RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);
    while(listFiles.hasNext()){
		
    }
}

如果放入集合list：

1、如果文件数量巨大，那么将全部放入运行端的内存中，运行端会吃不消。

2、而且由于list巨大，传输将消耗大量时间。

这时候就需要使用迭代器，不再返回一个list对象，而是返回一个迭代器实例对象，然后调用hasnext（）判断是否有下一个数据，有的情况下再调用next方法取数据。不再消耗大量内存。

参考文献：
https://blog.csdn.net/weixin_38702350/article/details/82184536
https://www.cnblogs.com/yf11/p/6699775.html

LUK流

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从java迭代器与集合之间的关系延申到hadoop中的应用

(1)Iterator模式是用于遍历集合类的标准访问方法。它可以把访问逻辑从不同类型的集合类中抽象出来，从而避免向客户端暴露集合的内部结构。例如，如果没有使用Iterator，遍历一个数组的方法是使用索引： for(int i=0; i&amp;amp;lt;array.size(); i++) { ... get(i) ... } 客户端都必须事先知道集合的内部结构，访问代码和集合本身是紧耦合，无法将访...
复制链接

扫一扫