pyspark入门学习：创建DataFrame、增、删、改等

最新推荐文章于 2023-02-15 14:08:54 发布

向日葵

最新推荐文章于 2023-02-15 14:08:54 发布

阅读量561

点赞数 1

分类专栏： spark Python 文章标签： spark

本文链接：https://blog.csdn.net/mao15827639402/article/details/112014870

版权

Python 同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

pyspark入门学习demo

pyspark创建Dataframe
增、删、改等相关语法

最近数据机太大，用pandas处理耗时太久，于是用学习pyspark处理数据。

pyspark创建Dataframe

from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql import functions as fn
from pyspark.sql import Window
from pyspark.sql.functions import current_date
from pyspark.sql.functions import datediff
from pyspark.sql.functions import lit
from pyspark.sql.functions import col,when, max
# 创建一个SparkSession对象
conf = SparkConf().setAppName("spark_1").setMaster("local[2]")
ss = SparkSession.builder.config(conf=conf).getOrCreate()
# 创建DateFrame
df1 = ss.createDataFrame([
    ("may", '2020-10-13', 5000, "F",), ("may", '2020-11-12', 8800, "F"), ("may", '2020-12-15', 6000, "F"),
    ("donce", '2020-10-10', 1800, "M"), ("donce", '2020-11-10', 6600, "M"), ("donce", '2020-12-10', 8800, "M")],
    ("name", "date", "exp", 'sex'))
print(df1.show())

在这里插入图片描述

增、删、改等相关语法

1.按照条件增加一列
print(df1.withColumn('sex_id', fn.when(col('sex') == 'M', 1).otherwise(0)).show())

在这里插入图片描述

print(df1.withColumn('exp_id', when(col('exp') <= 2000, 1)
                     .when((col('exp') > 2000) & (col('exp') <= 6000), 2)
                     .otherwise(3)).show())

在这里插入图片描述

2.新增一列自定义的，并删除'sex'列
print(df1.withColumn('current', lit(current_date())).drop('sex').show())
print(df1.withColumn('学位', lit('硕士')).drop('sex').show())

在这里插入图片描述

3.窗口函数实现
window = Window.partitionBy("name").orderBy(df1["exp"].desc())
df2 = df1.withColumn('topn', fn.row_number().over(window))
print(df2.show())

在这里插入图片描述

4.选择top1的exp
 print(df2.where(df2.topn<=1).show())

在这里插入图片描述
年前学习留下的小笔记，明年争取更多时间学习，提升自己！

向日葵

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pyspark入门学习：创建DataFrame、增、删、改等

pyspark入门学习demopyspark创建Dataframe增、删、改等相关语法最近数据机太大，用pandas处理耗时太久，于是用学习pyspark处理数据。pyspark创建Dataframefrom pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as fnfrom pyspark.sql import Windowfrom pyspark.sq
复制链接

扫一扫