PYSPARK中的groupby, agg，alias, orderby多个columns的操作

最新推荐文章于 2024-08-06 11:39:35 发布

anxingirl

最新推荐文章于 2024-08-06 11:39:35 发布

阅读量9.8k

点赞数 4

分类专栏： PYSPARK 文章标签： python spark

本文链接：https://blog.csdn.net/anxingirl/article/details/123400936

版权

本文介绍了在pyspark中如何使用groupby、agg、alias和orderby对多个columns进行操作。内容包括根据多个列进行groupby，通过agg进行计数和平均值计算，并结合alias为新生成的列添加别名，以及如何对多个字段进行正序和倒序排序。示例代码和建议的实践方法一并提供。

摘要由CSDN通过智能技术生成

#Pyspark imports

import pyspark
from pyspark.sql import SQLContext
from pyspark.sql.functions import hour, when, col, date_format, to_timestamp
from pyspark.sql.functions import *


# Define Spark Context

sc = pyspark.SparkContext(appName="Homework")
sqlContext = SQLContext(sc)


# Function to load data

def load_data():
    df = sqlContext.read.option("header",True).csv("yellow_tripdata_2019-01_short.csv")
    return df

df = load_data()

https://spark.apache.org/docs/3.2.1/api/python/reference/api/pyspark.sql.DataFrame.orderBy.html?highlight=orderby#pyspark.sql.DataFrame.orderBy

在pyspark中，可以和pandas一样进行groupby操作，count 也是一样可以做的，例如我们可以使用下面的简单操作来去得到对column1进行group后，计算每个group的计数，并且展示出来。