pyspark saveAsPickleFile序列化问题记录

最新推荐文章于 2021-04-11 15:00:43 发布

桜空星愿

最新推荐文章于 2021-04-11 15:00:43 发布

阅读量808

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/Toxicant__/article/details/106683519

版权

1 篇文章 0 订阅

订阅专栏

使用rdd.saveAsPickleFile方法是根据task个数生成对应数目的序列化文件，且每个序列化文件都有文件头，在getmerge后无法正常解析；(调整partition个数，每个文件解析一次)
出现pickle对py2和py3不兼容的问题，导致了问题，因为通过py3读取py2生产的数据

UnicodeDecodeError: 'ascii' codec can't decode byte 0x90 in position 614: ordinal not in range(128)

参考网上的解决方案，将sparkpickle库中的__init__.py文件中的callback函数中调用的pickle.load(file)改为pickle.load(file, encoding=“latin1”)

在读取数据时，最后两个字段在pyspark中的类型为<class ‘pyspark.ml.linalg.DenseVector’>，导致在读取的时候需要安装pyspark才可以反序列化。
解决完上述问题后出现ValueError: could not convert string to float错误，查看错误位置在pyspark中的代码ar = np.array(ar, dtype=np.float64)，正在重新抽取数据，在pyspark中直接将后两个字段使用json的方式读取为list进行序列化存储

在解决问题4后，问题2和问题3也一并解决了

关注