DataFrame常用操作,DSL风格语法操作DataFrame, SQL风格语法操作DataFrame 23

1. DataFrame常用操作

1.1 DSL风格语法

DataFrame提供了一个**领域特定语言(DSL)**来操作结构化数据。博主我理解为DataFrame自身的一些方法函数。
示例如下:如下示例中的数据,来源于博主上上一篇播客personDF数据来源

  • 现已经有一个DataFrame类型的数据,想要查看这个数据里面的详情,需要使用.show方法
personDF.show

在这里插入图片描述

  • 查看DataFrame类型数据中的特定的内容
    • 只查看name字段的内容
    psersonDF.select(personDF.col("name")).show
    
    在这里插入图片描述
    • 只查看name字段的另一种方法
    personDF.select("name").show
    
    在这里插入图片描述
    • 查看 name 和age字段数据
    personDF.select(col("name"), col("age")).show
    
    在这里插入图片描述
    • 打印DataFrame的Schema信息
    personDF.printSchema
    
    在这里插入图片描述
    • 查询所有的name和age,并将age+1
    personDF.select(clo("name"),col("age"),col("age")+1).show
    
    在这里插入图片描述
    或者
    personDF.select(personDF("id"), personDF("name"), personDF("age") + 1).show
    
    在这里插入图片描述
    • 过滤age大于等于25的,使用filter方法过滤
    personDF.filter(col("age")>25).count
    
    在这里插入图片描述
    • 统计年龄大于30的人数
    personDF.filter(col("age")>30).count
    
    在这里插入图片描述
    • 按年龄分组,并统计每组人数
    personDF.groupBy("age").count().show
    
    在这里插入图片描述

    1.2 SQL风格语法

    DataFrame强大之处是我们可以把他看做一个关系型数据表, 然后可以再程序中使用spark.sql()来执行sql语句,并且返回一个DataFrame.
    如果使用SQL风格语法,需要先把DataFrame注册成一张表.如何注册呢?
    personDF.registerTempTable("t_person")
    
    案例如下:
    • 查询年龄最大的前2名
    spark.sql("select * from t_table order by age desc limit 2").show
    
    在这里插入图片描述
    • 显示表的Schema信息
      spark.sql("desc t_person").show
      
      在这里插入图片描述
  • 查询年龄大于30的人
spark.sql("select * from t_person where age > 30 ").show

在这里插入图片描述

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值