pyspark案例系列2-rdd与DataFrame相互转换

最新推荐文章于 2024-07-09 15:47:20 发布

只是甲

最新推荐文章于 2024-07-09 15:47:20 发布

阅读量5k

点赞数

分类专栏：大数据和数据仓库 # Spark

本文链接：https://blog.csdn.net/u010520724/article/details/117125078

版权

PySpark DataFrame groupby 聚合 rdd转换

关键词由CSDN通过智能技术生成

大数据和数据仓库同时被 2 个专栏收录

290 篇文章 110 订阅

订阅专栏

Spark

33 篇文章 26 订阅

订阅专栏

一.问题描述

今天写pyspark脚本的时候遇到一个问题，需要类似于关系型数据库group by再聚合的操作，尝试通过rdd来写，发现不好实现。
于是想到了使用DataFrame，通过类sql的group by直接进行实现。

二.解决方案

将rdd直接转为DataFrame。

首先进行配置:
SparkSession是Spark SQL的入口

from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
spark_conf = SparkConf().setMaster("local[*]").setAppName("FindCommonFriends")
sc = SparkContext(conf = spark_conf)
spark = SparkSession(sc)

代码:

-- 通过rdd生产DataFrame
df = spark.createDataFrame(rdd)
-- 通过rdd生产DataFrame，并给列进行命名
df = spark.createDataFrame(rdd,['a', 'b'])

下面是一段生成group by的pyspark代码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
from pyspark.sql.functions import collect_list
from pyspark.sql.functions import udf, col

# 设置Spark程序运行的地方，此处设置运行在本地模式，启动2个线程分析数据
spark_conf = SparkConf().setMaster("local[*]").setAppName("FindCommonFriends")
sc = SparkContext(conf = spark_conf)
spark = SparkSession(sc)

# 从本地文件生成rdd
filename = 'file:///home/pyspark/friends.txt'
rdd = sc.textFile(filename)

# 根据分隔符进行分割并排序
rdd1=rdd.map(lambda x:x.split("\t")).sortByKey(lambda x:x[0])

# 根据rdd生成DataFrame
df1 = spark.createDataFrame(rdd1,['a', 'b'])
df2 = df1.groupBy("a").agg(collect_list('b').alias('b_new1')).orderBy("b_new1")
df3=df2.groupBy("b_new1").agg(collect_list('a').alias('a_new1')).orderBy("b_new1")

#df2.show()
#df3.show()