pyspark中dataframe切片

最新推荐文章于 2024-07-06 02:33:11 发布

htbeker

最新推荐文章于 2024-07-06 02:33:11 发布

阅读量6k

点赞数 2

分类专栏： pyspark 文章标签： pyspark dataframe 切片

本文链接：https://blog.csdn.net/htbeker/article/details/88690386

版权

pyspark 专栏收录该内容

7 篇文章 4 订阅

订阅专栏

想要对pyspark中dataframe实现pandas.dataframe中iloc的切片功能，发现spark中没有相关函数可以直接实现该功能，因此自己琢磨了一个方法。
首先创建一个dataframe。

dfs = spark.createDataFrame([("a", 1), ("b", 2), ("c", 3)], ["letter", "name"])

长这样子
±-----±—+
|letter|name|
±-----±—+
| a| 1|
| b| 2|
| c| 3|
±-----±—+

# 定义切片函数
def getrows(df, rownums=None):
    return df.rdd.zipWithIndex().filter(lambda x: x[1] in rownums).map(lambda x: x[0])

#取0和1行
getrows(dfs, rownums=[0,1]).collect()

结果：
[Row(letter=u’a’, name=1), Row(letter=u’b’, name=2)]

#取0和2行
getrows(dfs, rownums=[0,2]).collect()

[Row(letter=u’a’, name=1), Row(letter=u’c’, name=3)]

切片后是rdd，再转换成dataframe即可。

getrows(dfs, rownums=[0,2]).toDF().show()

±-----±—+
|letter|name|
±-----±—+
| a| 1|
| c| 3|
±-----±—+
搞定。
再提一下实现该功能主要用到的函数zipWithIndex()，该函数将RDD中的元素和这个元素在RDD中的ID（索引号）组合成键/值对,如下。

dfs.rdd.zipWithIndex().collect()

[(Row(letter=u’a’, name=1), 0),
(Row(letter=u’b’, name=2), 1),
(Row(letter=u’c’, name=3), 2)]
扫描下方二维码关注领取程序员必备千套ppt模板，300本精选好书，丰富面经：
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

htbeker

关注关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pandas dataframe 和 pyspark dataframe

weixin_48412526的博客

05-10

714

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.创建DataFrame2.选取数据列选取行选取条件选择（根据A列值选择B列）统计全局分组排序总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工

PySpark 切片并选择特定的行数

给我一点温度

11-18

1万+

在PySpark需要选择特定的某些行，数据量巨大而没法转到pandas的dataframe操作。 1. 如果内容为数值，可以用between函数筛选。参考资料：http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.Column.between 下面的例子，表示筛选出(id >= 5) 及...

参与评论您还未登录，请先登录后发表或查看评论

PySpark DataFrame使用详解

haveanybody的博客

05-11

2203

作为一款非常成熟的大数据工具，Spark已在业界获得了非常广泛的应用。而Python+Spark的结合产物PySpark更是集合了Python的易用和Spark的分布式计算能力，产生了1+1 > 2的效果。本系列文章将从《PySpark DataFrame》、《Pandas API on Spark》、《Spark on K8S》、《PySpark RDD》几个方面分别介绍PySpark的功能。

pyspark dataframe 保存成 cvs

热门推荐

三石

02-15

16万+

python pandas dataframe 行列选择，切片操作

dataframe 切片_Spark DataFrame 不是真正的 DataFrame

weixin_39576018的博客

11-26

439

从这篇文章开始，我们专栏开始一个新的读 paper 系列。今天要介绍的 paper 是 Towards Scalable Dataframe Systems，目前还是预印本。作者 Devin Petersohn 来自 Riselab，该实验室的前身是大名鼎鼎的 APMLab，诞生了 Apache Spark、Apache Mesos 等一系列著名开源项目。个人觉得这篇 paper 蛮有意义的，第一...

[1017]pyspark之dataframe操作

周小董

07-10

1688

文章目录1、连接本地spark2.、创建dataframe3、选择和切片筛选4、增加删除列5、排序6、处理缺失值7、分组统计8、join操作9、空值判断10、离群点11、去重12、生成新列13、行的最大最小值14、when操作 1、连接本地spark import pandas as pd from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName('my_first_app_name'

Python dataframe 索引切片

好记性不如烂笔头

09-22

7061

dataframe切片、dataframe索引、dataframe的loc索引、dataframe的iloc索引、dataframe的布尔索引（最强大的，用好了直接封神的那种）

PySpark的DataFrame

刘小生Star

07-29

1171

PySpark的DataFrame的具体操作：读取数据集、观察文档、查看列名、文档统计值、查看变量属性、选择特定变量、筛选特定样本、计算不重复值、资料清洗、处理缺失值、转换类型，具体例子如下所示： ## 读取数据集 fileDF = spark.read.csv('hdfs://tmp/ratings.csv', sep = ',', header = True)## 观察文档 fileDF.s...

Pyspark中的DataFrame操作汇总

幸运的Alina的博客

07-07

1万+

1. 读取csv文件为DataFrame 通过Pyspark直接读取csv文件可以直接以DataFrame类型进行读取，通过利用schema模式来进行指定模式。假设我有一个.csv文件，里面有四列数据，长这样，该.csv文件没有header。分别为用户id，电影id，电影评分，时间戳通过导入Spark SQL中引入数据类型， import pyspark.sql.type...

pandas 中dataframe 中的模糊匹配与pyspark dataframe 中的模糊匹配

apache150的博客

07-24

1万+

1.pandas dataframe 匹配一个很简单,批量匹配如下 df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次 pyspark dataframe 中模糊匹配有两种方式 2.spark dataframe api, filter rlike 联合使用 df1=d...

Spark中DataFrame与Pandas中DataFrame的区别

给我一点温度

08-20

9422

目录为何使用 PySpark DataFrame Pandas DataFrame 数据结构特性 Spark DataFrame 数据结构与存储特性使用 Spark DataFrame 优势 Spark toPandas 详解 Spark与Pandas中的DataFrame的区别为何使用 PySpark DataFrame 使用 pandas 进行数据处理，dataframe...

使用Pyspark将pandas.Dataframe转为LabeledPoint

weixin_42286026的博客

11-25

2694

使用Pyspark将pandas.Dataframe转为LabeledPoint 本人刚刚开始学习pyspark，由于之前只在单机中进行过数据处理，习惯利用python中的pandas进行数据预处理，但是在pyspark中，模型训练时只支持LabeledPoint数据，所以使用pandas的Dataframe处理完数据以后需要将其转化为LabeledPoint，在此过程中查询了许多博文，看了sta...

Pyspark DataFrame基础

AcceptedLin的博客

03-24

522

Pyspark DataFrame基础 1.读取csv import pandas as pd from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName('my_first_app_name') \ ...

python dataframe切片_python pandas dataframe 行列选择,切片操作方法

weixin_35886058的博客

02-09

971

SQL中的select是根据列的名称来选取；Pandas则更为灵活，不但可根据列名称选取，还可以根据列所在的position(数字，在第几行第几列，注意pandas行列的position是从0开始)选取。相关函数如下：1)loc，基于列label，可选取特定行(根据行index)；2)iloc，基于行/列的position；3)at，根据指定行index及列label，快速定位DataFrame的...

DataFrame索引操作、切片选取、条件过滤、赋值

景韦的专栏

02-21

2万+

索引操作 1. 修改索引顺序 reindex(index=[ ],columns=[ ],method,fill_value,copy) 根据传入的列表顺序对DataFrame重新索引，并返回一个新DataFrame，不影响原DataFrame。若传入列表中的值在原索引中并不存在，则在DataFrame的对应位置插入值为NaN的行/列。若只传入一个列表且未指定参数名，默认修改index即行索引。建...

pyspark系列--dataframe基础

振裕

03-23

7883

dataframe基础 1. 连接本地spark 2. 创建dataframe 3. 查看字段类型 4. 查看列名 5. 查看行数 6. 重命名列名 7. 选择和切片筛选 8. 删除一列 9. 增加一列 10. 转json 11. 排序 12. 缺失值 1. 连接本地spark import pandas as pd from pyspark.sql import Spa...

dataframe获取分区个数及每个分区的内容

盛源的博客

04-19

2980

1 dataframe获取分区个数 val df = spark.sparkContext.makeRDD(1.to(100), 4).toDF("id") val partition_num=df.rdd.partitions.length println(partition_num) 2 dataframe获取每个分区的内容 // 构造测试数据 val df = spark.s...

Pyspark学习笔记（六）DataFrame简介

朝花&夕拾

09-12

679

Pyspark学习笔记（六）文章目录Pyspark学习笔记（六）前言DataFrame简介一、什么是 DataFrame ？二、RDD 和 DataFrame 和 Dataset三、选择使用DataFrame / RDD 的时机前言本篇博客讲的是DataFrame的基本概念 DataFrame简介主要参考文献： A Tale of Three Apache Spark APIs: RDDs vs DataFrames and Datasets RDDs vs. Dataframes

pyspark中dataframe链接MySQL

06-12

在使用pyspark中链接MySQL数据库的时候，需要先通过JDBC驱动来实现。以下是链接MySQL数据库的步骤： 1. 下载MySQL的JDBC驱动，将其放置在pyspark的classpath路径下。 2. 在pyspark中创建一个SparkSession对象，并且...