DataFrame API入门操作及代码展示

蜜桃上的小叮当

已于 2022-12-13 00:16:26 修改

阅读量1k

点赞数

分类专栏： Spark 文章标签： python pandas 数据挖掘

于 2022-12-01 21:17:30 首次发布

本文链接：https://blog.csdn.net/sinat_31854967/article/details/128132819

版权

Spark 专栏收录该内容

24 篇文章 2 订阅

订阅专栏

文章目录

DataFrame风格编程

DataFrame支持两种风格进行编程
- DSL风格
- SQL风格
DSL称之为领域特定语言，其实就是指DataFrame特有的API，DSL风格意思就是以调用API的方式来处理Data。
SQL风格就是使用SQL语句处理DataFrame的数据。

DSL风格编程代码示例

SQL风格编程代码示例

Fucntions包

PySpark提供了一个函数包：pyspark.sql.functions，这个包里提供了一些列的计算函数供SparkSQL使用最常见的有我们所熟悉的split和explode方法。
导入这个包我们可以通过以下代码来实现：

  from pyspark.sql import functions as F

这些功能函数的返回值多数都是column对象。

基于SparkSQL的WordCount代码编写

# coding : utf8
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

if __name__ == '__main__':
    ss = SparkSession.builder \
        .appName("test") \
        .master("local[*]") \
        .getOrCreate()
    sc = ss.sparkContext

    # TODO: 1 SQL风格处理
    rdd = sc.textFile("hdfs://node1:8020/Test/WordCount.txt") \
        .flatMap(lambda line: line.split(" ")) \
        .map(lambda x: [x])

    df1 = rdd.toDF(["words"])
    df1.createOrReplaceTempView("words")

    ss.sql("SELECT words, COUNT(*) AS cnt FROM words GROUP  BY words ORDER  BY cnt DESC").show()


    # TODO: 2 DSL风格处理
    df2 = ss.read.format("text") \
        .load("hdfs://node1:8020/Test/WordCount.txt")

    # withColumn方法
    # 方法功能: 对已存在的列进行操作, 返回一个新的列, 如果名字和老列相同, 那么替换, 否则作为新列存在
    df3 = df2.withColumn("value", F.explode(F.split(df2["value"], " ")))
    df3.groupBy("value").count() \
        .withColumnRenamed("value", "words") \
        .withColumnRenamed("count", "cnt") \
        .orderBy("cnt", ascending=False).show()

结果展示：

蜜桃上的小叮当

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
DataFrame API入门操作及代码展示

DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表，然后可以通过在程序中使用spark.sql() 来执行SQL语句查询，结果返回一个DataFrame。使用SQL查询我们需要调用SparkSession.sql(“SQL语句”)执行查询，返回值是一个新的DataFrame。df.createGlobalTempView()：注册全局临时的视图表。df.createTempView()：注册临时的视图表。filter()与where()方法。printSchema()方法。
复制链接

扫一扫