spark中dataframe的部分操作与作用

本文介绍了Spark DataFrame的生成、Action操作,如show、collect、foreach、describe等,并详细讲解了条件查询与join操作,包括where、filter、select、groupBy、join、agg等方法的使用。
摘要由CSDN通过智能技术生成

spark中dataframe的部分操作与作用

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现,可参考官方文档:链接

一.生成dataframe

sparksql可以从其他RDD对象,parquet文件,json文件,hive表,以及通过jdbc连接到其他关系型数据库作为数据源来生成dataframe对象,此处以mysql为例:

	连接代码:
	
	import org.apache.spark.sql.SparkSession
	object sparksqlDataframe {
	  def main(args: Array[String]): Unit = {
	    val spark = SparkSession.builder().appName("sparkSql").master("local[2]").getOrCreate()
	    val jdbcDF = spark.read
	      .format("jdbc")
	      .option("url","jdbc:mysql://localhost:3306/app_food?useUnicode=true&characterEncoding=utf-8")
	      .option("dbtable","tb_food")
	      .option("user","root")
	      .option("password","123456")
	      .load()

二.dataframe的Action操作

  1. show(numRows:Int,truncate:Boolean/Int>): Unit
    show()可直接使用,也可添加int与boolean值,默认展示前20行,一行中最多显示前20个字符,超出以省略号代替,所有表格向右对齐
  • 添加单个int值,表示展示int值行的数据,所有表格向右对齐
    • 添加boolean,是否截断超过20个字符的字符串,默认为true,所有表格向右对齐

    • 添加int与boolean,展示int值行的数据,boolean值为true时,截断超过20个字符的字符串,所有表格向右对齐.

    • 添加两个int时,第一个int为展示多少行数据,第二个int大于0时,截断int值个字符的字符串,所有表格向右对齐。
      使用:

         jdbcDF.show(3, false)         
      
  1. collect
  • collect() : Array[T] 返回包含该数据集中所有行的数组(Array类型)。

    使用:

     	val array = jdbcDF.collect()
    
  • collectAsList() : List[T]

返回包含此数据集中的所有行的一个Java列表(List)。大数据集下执行此操作,会导致OutOfMemoryError,进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值