spark中dataframe的部分操作与作用
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现,可参考官方文档:链接
一.生成dataframe
sparksql可以从其他RDD对象,parquet文件,json文件,hive表,以及通过jdbc连接到其他关系型数据库作为数据源来生成dataframe对象,此处以mysql为例:
连接代码:
import org.apache.spark.sql.SparkSession
object sparksqlDataframe {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder().appName("sparkSql").master("local[2]").getOrCreate()
val jdbcDF = spark.read
.format("jdbc")
.option("url","jdbc:mysql://localhost:3306/app_food?useUnicode=true&characterEncoding=utf-8")
.option("dbtable","tb_food")
.option("user","root")
.option("password","123456")
.load()
二.dataframe的Action操作
-
show(numRows:Int,truncate:Boolean/Int>): Unit
show()可直接使用,也可添加int与boolean值,默认展示前20行,一行中最多显示前20个字符,超出以省略号代替,所有表格向右对齐
- 添加单个int值,表示展示int值行的数据,所有表格向右对齐
-
添加boolean,是否截断超过20个字符的字符串,默认为true,所有表格向右对齐
-
添加int与boolean,展示int值行的数据,boolean值为true时,截断超过20个字符的字符串,所有表格向右对齐.
-
添加两个int时,第一个int为展示多少行数据,第二个int大于0时,截断int值个字符的字符串,所有表格向右对齐。
使用:jdbcDF.show(3, false)
-
-
collect() : Array[T] 返回包含该数据集中所有行的数组(Array类型)。
使用:
val array = jdbcDF.collect()
-
collectAsList() : List[T]
返回包含此数据集中的所有行的一个Java列表(List)。大数据集下执行此操作,会导致OutOfMemoryError,进