pyspark saveAsPickleFile序列化问题记录

  1. 使用rdd.saveAsPickleFile方法是根据task个数生成对应数目的序列化文件,且每个序列化文件都有文件头,在getmerge后无法正常解析;(调整partition个数,每个文件解析一次)

  2. 出现pickle对py2和py3不兼容的问题,导致了问题,因为通过py3读取py2生产的数据

UnicodeDecodeError: 'ascii' codec can't decode byte 0x90 in position 614: ordinal not in range(128)

参考网上的解决方案,将sparkpickle库中的__init__.py文件中的callback函数中调用的pickle.load(file)改为pickle.load(file, encoding=“latin1”)

  1. 在读取数据时,最后两个字段在pyspark中的类型为<class ‘pyspark.ml.linalg.DenseVector’>,导致在读取的时候需要安装pyspark才可以反序列化。
  2. 解决完上述问题后出现ValueError: could not convert string to float错误,查看错误位置在pyspark中的代码ar = np.array(ar, dtype=np.float64),正在重新抽取数据,在pyspark中直接将后两个字段使用json的方式读取为list进行序列化存储

在解决问题4后,问题2和问题3也一并解决了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值