pyspark saveAsPickleFile序列化问题记录
使用rdd.saveAsPickleFile方法是根据task个数生成对应数目的序列化文件,且每个序列化文件都有文件头,在getmerge后无法正常解析;(调整partition个数,每个文件解析一次)出现pickle对py2和py3不兼容的问题,导致了问题,因为通过托管平台提取时使用的是py2环境UnicodeDecodeError: 'ascii' codec can't decode byte 0x90 in position 614: ordinal not in range(128..
原创
2020-06-11 10:54:22 ·
808 阅读 ·
0 评论