大数据管理技术 Spark创建DataFrame

最新推荐文章于 2022-07-02 11:23:20 发布

Jxufe渣渣斯

最新推荐文章于 2022-07-02 11:23:20 发布

阅读量336

点赞数

分类专栏：大数据管理技术

本文链接：https://blog.csdn.net/JxufeCarol/article/details/106075652

版权

本文详细介绍了在Spark中创建DataFrame的八种方法，包括通过Seq、Json文件、csv文件、Json格式的RDD和DataSet、csv格式的DataSet、动态创建schema以及通过jdbc创建DataFrame。这些方法适用于不同场景，提供灵活的大数据处理方式。

摘要由CSDN通过智能技术生成

参考链接：
（1）Spark创建DataFrame的三种方法
https://blog.csdn.net/martin_liang/article/details/79748503

（2）Spark创建DataFrame的几种方式
https://blog.csdn.net/shirukai/article/details/81085642

与关系数据库的表(Table)一样，DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。
创建DataFrame有很多种方法，比如从本地List创建、从RDD创建或者从源数据创建。

创建DataFrame的几种方式

目标：生成如下的DataFrame数据

+----+---+-----------+
|name|age|      phone|
+----+---+-----------+
|ming| 20|15552211521|
|hong| 19|13287994007|
| zhi| 21|15552211523|
+----+---+-----------+

创建DataFrame的方法

（1）Spark中使用toDF函数创建DataFrame

通过导入(importing)Spark sql implicits, 就可以将本地序列(seq), 数组或者RDD转为DataFrame。只要这些数据的内容能指定数据类型即可。

注意：如果直接用toDF()而不指定列名字，那么默认列名为"_1", “_2”, …

#通过case class + toDF创建DataFrame的示例
import sqlContext.implicits._
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

// Define the schema using a case class.
// you can use custom classes that implement the Product interface.
case class Person(name: String, age: Int)
 
// Create an RDD of Person objects and register it as a table.
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
 
// 使用 sqlContext 执行 sql 语句.
val teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")
 
// 注：sql()函数的执行结果也是DataFrame，支持各种常用的RDD操作.
// The columns of a row in the result can be accessed by ordinal.
teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

（2）Spark中使用createDataFrame函数创建DataFrame

在SqlContext中使用createDataFrame也可以创建DataFrame。跟toDF一样，这里创建DataFrame的数据形态也可以是本地数组或者RDD。

#通过row+schema创建示例
import org.apache.spark.sql.types._
val schema = StructType(List(
    StructField("integer_column", IntegerType, nullable = false),
    StructField("string_column", StringType, nullable = true),
    StructField("date_column", DateType, nullable = true)
))
val rdd = sc.parallelize(Seq(
  Row(1, "First Value", java.sql.Date.valueOf("2010-01-01")),
  Row(2, "Second Value", java.sql.Date.valueOf("2010-02-01"))
))