pythonsparkpickle_Spark阅读python3 pickle作为输入

很大程度上取决于数据本身.一般来说,当Spark必须读取大文件而不是可拆分文件时,它的表现并不是特别好.不过,您可以尝试使用binaryFiles方法并将其与标准Python工具结合使用.让我们从虚拟数据开始:

import tempfile

import pandas as pd

import numpy as np

outdir = tempfile.mkdtemp()

for i in range(5):

pd.DataFrame(

np.random.randn(10, 2), columns=['foo', 'bar']

).to_pickle(tempfile.mkstemp(dir=outdir)[1])

接下来我们可以使用bianryFiles方法读取它:

rdd = sc.binaryFiles(outdir)

并反序列化单个对象:

import pickle

from io import BytesIO

dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))

dfs.first()[:3]

## foo bar

## 0 -0.162584 -2.179106

## 1 0.269399 -0.433037

## 2 -0.295244 0.119195

一个重要的注意事项是它通常比textFile这样的简单方法需要更多的内存.

另一种方法是仅并行化路径并使用可以直接从分布式文件系统(如hdfs3)读取的库.这通常意味着以更差的数据位置为代价降低内存需求.

考虑到这两个事实,通常最好以可以加载更高粒度的格式序列化数据.

注意:

SparkContext提供了pickleFile方法,但名称可能会产生误导.它可用于读取包含pickle对象的SequenceFiles,而不是普通的Python pickle.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值