pyspark dataframe数据处理

最新推荐文章于 2023-12-12 12:21:50 发布

土豆土豆，我是洋芋

最新推荐文章于 2023-12-12 12:21:50 发布

阅读量997

点赞数 1

分类专栏： pyspark

本文链接：https://blog.csdn.net/ni_hao2017/article/details/88397287

版权

pyspark 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

空值处理

（1）删除空值

#删除所有包含空值的行
df = df.na.drop()
#删除‘excute_errormsg’列含有空值的行
df = df.na.drop(subset='excute_errormsg')

（2）空值填充

#所有空值填充‘888’
df = df.na.fill('888‘)
#'excute_errormsg'列的空值填充‘888’
df = df.na.fill(subset='excute_errormsg')

（3）选择空值所在行

df = data.filter(data.id.isNull())

列重命名

df = df.withColumnRenamed('old-name','new-name')

删除指定列

df = df.drop('a','b','c')

选择指定’a’,‘b’,'c’列

df=df.select('a','b','c')

条件筛选
筛选‘execute_state ’列值为‘4’或者‘excute_errormsg’列不等‘-1’的值

data = data.filter((data.execute_state == '4')|(data.excute_errormsg != '-1'))

增加新列

（1）增加新列‘excute’,值为0

from pyspark.sql.functions import  lit
data1 = data1.withColumn('excute',lit(0))

（2）增加新列‘time’,值为当前时间

from pyspark.sql.functions import  current_timestamp
data1 = data1.withColumn('time',current_timestamp())

dataframe左连接

df = data.join(data1, data.id == data1.id_1, 'left')

dataframe union

#data1+data103+data109
data3=data1.union(data103).union(data109)

数据类型转换

from pyspark.sql.types import IntegerType,StringType,DateType,LongType,FloatType
data = data.withColumn('a',data['a'].cast(FloatType()))\
		.withColumn('b',data['b'].cast(StringType()))\
		.withColumn('c',data['c'].cast(IntegerType()))

土豆土豆，我是洋芋

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
pyspark dataframe数据处理

空值处理（1）删除空值#删除所有包含空值的行df = df.na.drop()#删除‘excute_errormsg’列含有空值的行df = df.na.drop(subset='excute_errormsg')（2）空值填充#所有空值填充‘888’df = df.na.fill('888)#'excute_errormsg'列的空值填充‘888’df = df.na....
复制链接

扫一扫