spark中dataframe的部分操作与作用

最新推荐文章于 2024-07-31 15:54:40 发布

qq_41344892

最新推荐文章于 2024-07-31 15:54:40 发布

阅读量546

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/qq_41344892/article/details/103597148

版权

本文介绍了Spark DataFrame的生成、Action操作，如show、collect、foreach、describe等，并详细讲解了条件查询与join操作，包括where、filter、select、groupBy、join、agg等方法的使用。

摘要由CSDN通过智能技术生成

spark中dataframe的部分操作与作用

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现，可参考官方文档：链接

一.生成dataframe

sparksql可以从其他RDD对象，parquet文件，json文件，hive表，以及通过jdbc连接到其他关系型数据库作为数据源来生成dataframe对象，此处以mysql为例：

	连接代码：
	
	import org.apache.spark.sql.SparkSession
	object sparksqlDataframe {
	  def main(args: Array[String]): Unit = {
	    val spark = SparkSession.builder().appName("sparkSql").master("local[2]").getOrCreate()
	    val jdbcDF = spark.read
	      .format("jdbc")
	      .option("url","jdbc:mysql://localhost:3306/app_food?useUnicode=true&characterEncoding=utf-8")
	      .option("dbtable","tb_food")
	      .option("user","root")
	      .option("password","123456")
	      .load()

二.dataframe的Action操作

show(numRows:Int,truncate:Boolean/Int>): Unit
show()可直接使用，也可添加int与boolean值，默认展示前20行，一行中最多显示前20个字符，超出以省略号代替，所有表格向右对齐

添加单个int值，表示展示int值行的数据，所有表格向右对齐
- 添加boolean，是否截断超过20个字符的字符串，默认为true，所有表格向右对齐
- 添加int与boolean,展示int值行的数据，boolean值为true时，截断超过20个字符的字符串，所有表格向右对齐.
- 添加两个int时，第一个int为展示多少行数据，第二个int大于0时，截断int值个字符的字符串，所有表格向右对齐。
  使用：
```
   jdbcDF.show(3, false)         
```