感谢原文作者:http://blog.madhukaraphatak.com/glom-in-spark/
今天,我将讨论spark rdd上名为“glom”的操作,它允许您将分区视为数组而不是单个行。这可以让你加快内存使用量的一些操作。
假设您想要在给定的RDD中找出最大值。
现在你可以使用map和reduce操作来完成它,如下所示。
本文介绍了Spark中的glom操作,用于将RDD的分区视为数组,从而减少shuffle操作,提高效率。通过glom,可以更有效地找到分区内的最大值,并在计算加权矩阵时避免昂贵的逐行操作,提升机器学习算法的性能。
感谢原文作者:http://blog.madhukaraphatak.com/glom-in-spark/
今天,我将讨论spark rdd上名为“glom”的操作,它允许您将分区视为数组而不是单个行。这可以让你加快内存使用量的一些操作。
假设您想要在给定的RDD中找出最大值。
现在你可以使用map和reduce操作来完成它,如下所示。
472
3239

被折叠的 条评论
为什么被折叠?