Spark Dataframe 按行随机打乱

原创已于 2022-03-08 10:42:18 修改 · 9.5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#spark

于 2020-03-31 16:09:12 首次发布

本文介绍如何使用Spark DataFrame进行数据随机打乱，适用于算法训练样本的预处理。通过在每一行生成随机数并排序，最终删除随机数列，达到随机打乱数据的目的。

Spark Dataframe 按行随机打乱

1. 原因

做这个是由于算法的训练样本需要打乱。样本打乱在正常情况下有很多方法，比如下载本地用linux的shuf命令。然而我在用spark-tensorflow-connector做tfrecord数据格式转化时，由于spark dataframe中是tfrecord数据，下载本地后为二进制文件，所以按行打乱过程需要在dataframe中进行。

2. 方法

在spark dataframe api中，http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame
没有直接做随机打乱的方法。比如repartition并不能全部随机打乱，sample随机采样，其实采样顺序和原来dataframe排列一致。Pandas dataframe有随机打乱的方法，但是用toPandas转化消耗过于巨大。
比较适用的思路是，每行生成随机数后排序，然后删除这一随机数的列，就达到了随机打乱的效果。

3. 实现

import pyspark.sql.functions as F

# 从rdd生成dataframe
schema = StructType(fields)
df_1 = spark.createDataFrame(rdd, schema)
# 乱序: pyspark.sql.functions.rand生成[0.0, 1.0]中double类型的随机数
df_2 = df_1.withColumn('rand', F.rand(seed=42))
# 按随机数排序
df_rnd = df_2.orderBy(df_2.rand)
# 删除随机数的一列
df = df_rnd.drop(df_rnd.rand)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VinLSJ2020

关注关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
6
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Python】 Python中的DataFrame行随机打乱：Shuffle技术详解

PythonWeb实践

06-11

1227

在数据分析和机器学习中，经常需要对数据进行随机打乱，以确保数据的随机性，从而避免数据顺序对分析结果的影响。> 【痕迹】QQ+微信朋友圈和聊天记录分析工具1.0.4 （1）纯Python语言实现，使用Flask后端，本地分析，不上传个人数据。的行是一种常见的数据预处理技术，它有助于提高模型的泛化能力，尤其是在机器学习领域。> （2）内含QQ、微信聊天记录保存到本地的方法，真正实现自己数据自己管理。方法的参数，我们可以灵活地控制打乱的程度和方式，以满足不同的数据分析需求。中的行可以被随机打乱，这通常通过。

6 条评论您还未登录，请先登录后发表或查看评论

numpy和pandas的数据乱序

jediael_lu的专栏

07-14

753

import numpy as np import pandas as pd import sklearn import urllib import os import tarfile 数据乱序我们分别介绍numpy.ndarray和pandas.dataframe的乱序。 numpy.ndarray 拆分前，一般会先对数据进行随机排序。 numpy.random中有shuffle()和permutation()2个函数均可用于对数据进行乱序。主要区别在于： shuffle()直接对原数据进行重排，无

熟练掌握这5招，让Pandas DataFrame列随你调整

devid008的博客

05-22

6064

熟练运用Pandas进行数据处理和分析的你，是否遇到过DataFrame列顺序排列不顺的情况? 今天教你5种灵活方法，轻松调整Pandas DataFrame的列顺序，让数据处理更得心应手。

pandas随机打乱dataFrame顺序

挑战者的博客

09-17

4194

pandas随机打乱数据顺序

Python数据分析实战-随机打乱dataframe行（记录）（附源码和实现效果）

数据杂坛

04-16

822

Python数据分析实战-随机打乱dataframe行（记录）（附源码和实现效果）

PySpark之Spark Shuffle

feizuiku0116的博客

02-09

1040

三、Spark Shuffle 一、Spark的Shuffle简介 Spark在DAG调度阶段会将一个Job划分为多个Stage，上游Stage做map工作，下游Stage做reduce工作，其本质上还是MapReduce计算框架。Shuffle是连接map和reduce之间的桥梁，它将map的输出对应到reduce输入中，涉及到序列化和反序列化、跨节点网络IO以及磁盘读写IO等 Spark的Shuffle分为Write和Read两个阶段，分属于两个不同的Stage，前者是Parent Stage的

spark利用cache优化shuffle

RayfunC的博客

01-02

795

cache表，数据放内存，数据被广播到Executor，将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关联，跳过大量数据进行 shuffle 的过程，

Spark宝典

探索大数据世界 - 深入解析数据存储、分布式计算与人工智能

01-01

2626

spark宝典

用 Spark 处理复杂数据类型（Struct、Array、Map、JSON字符串等）

weixin_34326558的博客

06-07

4566

处理复杂的数据类型这里是从我个人翻译的《Spark 权威指南》第六章摘录的一部分，但我觉得书中这块讲的程度还不够，额外补充了一些当然，更多内容可参见本系列《Spark The Definitive Guide Learning》（Spark 权威指南）学习翻译笔记，收录于此：josonle/Spark-The-Definitive-Guide-Learning 处理 Structs 的方法这...

Spark常见面试题-部分待更新

热门推荐

gaishi_hero的博客

08-05

1万+

数据框(DataFrame)是pandas中一种重要的数据结构，你可以将其想象为一个关系型数据表格，其中包含多个行和已命名的列。可以通过字典的方式创建DataFrame，示例代码如下： import pandas as pd city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento']) population = pd....

python操作dataframe--打乱df的顺序

正态分个布

03-14

1141

在上面的示例中，sample(frac=1)会按照随机顺序对DataFrame进行抽样，实现了打乱DataFrame的顺序。reset_index(drop=True)会重置索引，使得索引按照新的顺序重新排列。此外，pandas的sample还有一些其他参数和用法。DataFrame中的sample()方法用于从DataFrame中随机抽取指定数量或比例的行或列。要打乱DataFrame的顺序，可以使用sample方法来实现。可以根据自己的实际情况调整代码中的DataFrame和列名。

【数据挖掘】Python数据分析和挖掘实战--随机打乱DataFrame中的数据（含代码和效果）

学无止境、积少成多、厚积薄发

05-22

1579

Python数据分析和挖掘实战--随机打乱DataFrame中的数据（含代码和效果）

python dataframe打乱行

cxfz0209的博客

07-07

2156

python dataframe打乱行

如何随机打乱DataFrame

luoganttcc的博客

08-25

5939

from pandas import DataFrame import numpy as npdf=DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],columns=['one','two','three','four']) df Out[8]: one two three four a 0 1

python pandas DataFrame: Shuffle 打乱顺序/洗牌

夏日麦香的博客

04-18

842

转载：pandas: Shuffle rows/elements of DataFrame/Seriesnkmk note 这个作者写了很多关于python使用的文章，写得很好，推荐收藏You can randomly shuffle rows of and elements of with the method. There are other ways to shuffle, but using the method is convenient because it does not requi

python dataframe 合并乱序列表_#国家计算机二级Python复习攻略#

weixin_39965102的博客

11-22

160

#Python复习#下周浙江就要考试进行计算机考试了，我给大家分享一些自己的考试经验。如果你已经买了题库，那只要安心的刷题就行了，踏踏实实的考个良好绝对不是问题。分值分布30分的选择题(15道计算机基础题+5道python相关题)60分的编程题(指定输出题+turtle+jieba/time+csv+综合)。需要掌握的是：基础的数组、列表、序列和字典的基本操作。需要掌握的标准库：time...

python dataframe 合并乱序列表_Python 源代码里的算法——如何合并多个有序列表并使得结果依然有序？...

weixin_39722965的博客

11-23

335

摄影：产品经理朝闻道，晚上喝酒去年的一篇文章《一日一技：在 Python 里面如何合并多个有序列表并使得结果依然有序？》，我很自不量力地提到了“多个有序列表”。但实际上，那篇文章仅仅是合并两个有序列表而已。真正要合并多个有序列表并使结果依然有序，会难得多。我有 A、B、C、D、E共5个有序列表，如果仅仅使用去年那篇文章的方法，那么我们需要先把 AB 合并得到列表 X，然后把 X 与 C ...

spark dataframe增加行或列函数

03-24

对于增加行或列的函数，Spark DataFrame 提供了多种方法。其中，增加列的方法包括 withColumn() 和 selectExpr()，增加行的方法包括 union() 和 concat()。以下是一些示例代码：增加列： df.withColumn("new_...