java.lang.OutOfMemoryError: GC overhead limit exceeded
在模型中我需要将100万的数据读出来经行筛选在组成一个30万维大数组,那么其中一个操作涉及到将rdd转化为array。
在这一步中其实是将所有的数据都拉到一台机器上了,也就是你的driver,应为我用的是spark-shell默认的任务执行模式
是yarn-client。所以driver就爆了。
我先把driver加到2G还是爆再给4G还是爆,信你的邪6G还治不了你于是OK了