Spark dataframe 学习笔记

原创已于 2022-01-18 20:36:41 修改 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #big data

于 2021-12-22 20:18:03 首次发布

学习笔记专栏收录该内容

8 篇文章

订阅专栏

本文介绍如何使用 Spark DataFrame 进行大规模数据处理，包括数据选择、过滤、聚合等常见操作，并对比 Pandas 的相应功能。

Spark dataframe 学习笔记

前言

在处理PB级的数据时，有时候会使用到pyspark来分析数据，首先贴上官网链接
有问题先去官网看文档！

与pandas的操作对比

df['column1']
df.select('column1')

df.describe()
df.describe('column1','column2').show()

df.columns()
df.columns()

df.column.value_count()
df.groupBy(['column']).count().collect() #collect 为返回一行list

df.column.unique()
df.select('column').distinct().count()

df[df['column'] > 10]
df.filter(df.column > 10).collect()

df.drop_duplicate()
df.dropDuplicates(['name','age']).show()

df['test'].fillna(0)
df.na.fill(0).show()
df.na.fill({'age':20,'name':'unkown'}).show()

一些apply类似的操作
某一行全加10

df['age'] = df['age']+10
df.select(df.name, (df.age + 10).alias('age')).collect()

下面就不再列pandas对比了，后面慢慢补

df.agg({'age':'max'}).collect()
df.agg(F,min(df.age)).collect()

dfs.filter(df.height.isNull()).collect()
dfs.filter(df.height.isNotNull()).collect()

map

相当于dataframe中的apply，可以对表中的每个元素进行操作

def mapFuction(num:Int):Int={
  num * num
}
val mapRDD = rdd.map(mapFuction)

也可以参考这篇文章，pands与spark的比较

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

昨日啊萌

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark基础学习笔记23：DataFrame与Dataset

howard2005的专栏

04-22

2372

Spark SQL、DataFrame、Dataset

【Spark实战系列】sparksql 中 dataframe 的用法总结

JasonLee实时计算

12-08

1035

Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset API.当使用相同执行引擎进行计算时, 无论使用哪种 API / 语言都可以快...

参与评论您还未登录，请先登录后发表或查看评论

Spark SQL 中 dataFrame 学习总结

weixin_34377919的博客

09-13

187

dataFrame多了数据的结构信息。就是schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame 提供了详细的结构信息，可以让sparkSQL清楚的知道数据集中包含哪些列，列的名称和类型各是什么? RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了...

Spark SQL和DataFrame的学习总结

myy1012010626的专栏

05-10

5918

1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前，核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源，包括外部文件（如 json、avro、parquet、sequ

Spark之DataFrame操作大全

SuperBoy_Liang的博客

07-23

5551

Spark&nbsp;Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-2.2的文档实现。一、DataFrame对象的生成　　Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hiv...

SPARK基础4(DataFrame操作)

xujingpilot的博客

04-11

563

在上文《SPARK基础2(读入文件、转临时表、RDD与DataFrame)》中，我们简单介绍了spark中的DataFrame，我们知道了spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。在本文中我们主要介绍，DataFrame基本API常用操作。查看数据 // 默认只显示20条 commodityDF.show() // 是否最多只显示20个字符，默认为true ...

spark做描述性统计

k_wzzc的博客

11-13

3222

spark datafram 的 “summary” 在做数据探索性分析的时候，有几个比较重要的数值，，它们能简要的概括数据的分布情况，它们包括分位数、均值、最值等。在R语言中，有个summary函数，可以返回这些数据摘要本文所使用的数据集以鸢尾花数据集为例 summary(iris) Sepal.Length Sepal.Width Petal.Length P...

精选资源

Spark学习笔记（三）：Spark DataFrame

01-20

Spark DataFrame 是Spark SQL的核心组件，它是Spark处理结构化数据的主要数据结构。DataFrame相较于RDD（弹性分布式数据集）具有显著的优势，因为它提供了更强的类型安全和更丰富的优化。DataFrame的引入使得Spark更...

Spark学习笔记12：DataFrame与Dataset

balabalalibala的博客

06-13

956

在Spark中，一个DataFrame所代表的是一个元素类型为Row的Dataset，即DataFrame只是Dataset[Row]的一个类型别名。

spark学习笔记（九）——sparkSQL核心编程-DataFrame/DataSet/DF、DS、RDD三者之间的转换关系

qq_55906442的博客

08-09

2012

前言前言Spark SQL可以理解为Spark Core的一种封装，在模型上和上下文环境对象上进行了封装；：用于Spark自己提供的SQL查询；：用于连接Hive的查询。：是Spark最新的SQL查询起始点，是SQLContext和HiveContext的组合，在 SQLContex和HiveContext上可用的API在SparkSession上同样是可以使用的。注：Spark Core首先构建上下文环境对象SparkContext才可以执行应用程序，sparkSQL和spark core类似。.....

spark学习笔记

11-02

本学习笔记集中介绍了Spark SQL在spark-shell中的操作方法，以及如何使用Spark进行数据清洗和转换成DataFrame的操作。首先，Spark SQL是Spark用于处理结构化数据的一个组件，它提供了SQL接口，可以执行SQL查询。...

spark- Dataframe基本操作-查询

wangwangstone的博客

01-03

5688

Spark的dataframe和sparkSql的详细核心数据处理代码教程

weixin_44294884的博客

02-27

443

对spark初学者的详细教学案例，包括dataframe和sparksql

spark DataFrame 的函数|基本操作|集成查询记录

yulijianzhangminmin的专栏

12-13

2万+

DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组，返回dataframe集合所有的行 2、 collectAsList() 返回值是一个Java类型的数组，返回dataframe集合所有的行 3、 count() 返回一个number类型的，返回dataframe集合的行数 4、 describe(cols: String*) 返回一个通过数学

Spark中DataFrame基本操作函数

别说话写代码的博客

07-30

1499

Action 操作 1、collect() ,返回值是一个数组，返回dataframe集合所有的行 2、collectAsList() 返回值是一个java类型的数组，返回dataframe集合所有的行 3、count() 返回一个number类型的，返回dataframe集合的行数 4、describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max)，这个可以传多个参数，中间用逗号分隔，如果有字段为空，那么不参与运算...

【极简spark教程】DataFrame常用操作

檐前潜心学种瓜

04-12

4838

DataFrame创建与常用操作，随便什么数据处理都可以轻松创建DataFrame来搞定

Spark---DataFrame学习(二)——select、selectExpr函数

stan1111的博客

08-01

3万+

select：处理列或表达式 selectExor：处理字符串表达式数据集格式如下：有三个字段，目的国家、出发国家、count 一.select 从df中选择列的方式， 1.DataFrame.select(“列名”)，参数是列名的字符串格式。想要选出多列，可以用相同方式添加更多列名小技巧：传入"*"选择所有列。 2.通过函数选择列这些函数有DataFrame.col(“列名”)、col(“列名”)、column(“列名”)、expr（“列名”）；以及两种scala特有的语言支持，$“列名

pandas之values和value_count()用法：结合JData ”用户购买时间预测“数据分析实例（一）