Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。
本文中的代码基于Spark-1.6.2的文档实现。
一、DataFrame对象的生成
Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表,以及通过JDBC连接到其他关系型数据库作为数据源来生成DataFrame对象。本文将以MySQL数据库为数据源,生成DataFrame对象后进行相关的DataFame之上的操作。
文中生成DataFrame的代码如下:
object DataFrameOperations {
def main (args: Array[String ]) {
val sparkConf = new SparkConf().setAppName( "Spark SQL DataFrame Operations").setMaster( "local[2]" )
val sparkContext = new SparkContext(sparkConf)
val sqlContext = new SQLContext(sparkContext)
val url = "jdbc:mysql://m000:3306/test"
val jdbcDF = sqlContext.read.format( "jdbc" ).options(
Map( "url" -> url,
"user" -> "root",
"password" -> "root",
"dbtable" -> "spark_sql_test" )).load()
val joinDF1 = sqlContext.read.format( "jdbc" ).options(
Map("url" -> url ,
"user" -> "root",
"password" -> "root",
"dbtable" -> "spark_sql_join1" )).load()
val joinDF2 = sqlContext.read.format( "jdbc" ).options(
Map ( "url" -> url ,
"user" -> "root",
"password" -> "root",
"dbtable" -> "spark_sql_join2" )).load()
... ...
}
}
二、DataFrame对象上Action操作
1、show:展示数据
以表格的形式在输出中展示jdbcDF中的数据,类似于select * from spark_sql_test的功能。
show方法有四种调用方式,分别为,
(1)show
只显示前20条记录。
示例:
jdbcDF.show
(2)show(numRows: Int)
显示numRows条
示例:
jdbcDF.show(3)
(3)show(truncate: Boolean)
是否最多只显示20个字符,默认为true。
示例:
jdbcDF.show(true)
jdbcDF.show(false)
(4)show(numRows: Int, truncate: Boolean)
综合前面的显示记录条数,以及对过长字符串的显示格式。
示例:
jdbcDF.show(3, false)
结果: