今天在Spark中使rdd按key进行join,最开始使用的key是元组(tuple),如((a,b),c)
结果,数据量较小时可正常运行,数据量较大时会报shuffle出错。
原因可见https://blog.csdn.net/u013405116/article/details/89356621
将作为的key的元组连接成字符串,即(a+"\t"+b,c)
再进行join,发现问题得到了解决。
之后可通过map再将a,b分开。
今天在Spark中使rdd按key进行join,最开始使用的key是元组(tuple),如((a,b),c)
结果,数据量较小时可正常运行,数据量较大时会报shuffle出错。
原因可见https://blog.csdn.net/u013405116/article/details/89356621
将作为的key的元组连接成字符串,即(a+"\t"+b,c)
再进行join,发现问题得到了解决。
之后可通过map再将a,b分开。