sparkSQL学习记录之二

最新推荐文章于 2024-07-11 11:24:31 发布

mask_deeply

最新推荐文章于 2024-07-11 11:24:31 发布

阅读量518

点赞数

分类专栏： spark 文章标签： spark sql

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在SPARKSQL中也可以运行SQL语句来生成DataFrame。

如val df=sqlContext.sql("SELECT * FROM table")

Spark SQL支持2种方式转换存在的RDDS为DataFrames，第一中方式是使用反射去推断包含特定类型的对象的RDD的表的模式。当你在写Spark应用程序时，已经知道表的模式这种基于反射的方法会使代码更简洁，使用起来方便。第二种方式是通过程序接口，允许你构造一个模式并且应用该模式到一个存在的RDD中。这种方式显得很冗余，但是它允许你在运行程序前，而不知道列名和列的类型时，去构造DataFrames。

下面先看使用反射来推断表的模式：

Scala的Spark SQL接口支持自动将包含用例类的RDD转换为DataFrame。用例类定义了表的模式。使用反射，用例类的参数的名字会被读取，变成列的名字。用例类也可以被嵌套，或者包含更复杂的类型，比如Sequence或者Arrays。RDD会被透明的转换成DataFrame，然后被注册成一个数据表。数据表可以使用SQL语句来进行操作。

示例代码：

//sc是一个存在的SparkContext

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

//这个可以透明的转换RDD为DataFrame
import sqlContext.implicits._

//定义的用例类
case class Person(name: String, age: Int)

//创建一个RDD并且注册为表
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")

//使用SQL语句
val teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")

//打印成People的名字
teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

使用特定的模式：

当用例类不可以提前被定义时，我们可以使用下面的三个步骤来创建一个DataFrame

1.使用原始的RDD来创建一个基于行的RDD

2.使用StructType来创建表的模式，并其匹配步骤1创建的RDD的行的结构.

3.通过使用SQLContext提供的createDataFrame方法，应用该模式到基于行的RDD。

示例代码如下：

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

// Create an RDD
val people = sc.textFile("examples/src/main/resources/people.txt")

// The schema is encoded in a string
val schemaString = "name age"

// Import Spark SQL data types and Row.
import org.apache.spark.sql._

// Generate the schema based on the string of schema
val schema =
StructType(
schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, true)))

// Convert records of the RDD (people) to Rows.
val rowRDD = people.map(_.split(",")).map(p => Row(p(0), p(1).trim))

// Apply the schema to the RDD.
val peopleDataFrame = sqlContext.createDataFrame(rowRDD, schema)

// Register the DataFrames as a table.
peopleDataFrame.registerTempTable("people")

// SQL statements can be run by using the sql methods provided by sqlContext.
val results = sqlContext.sql("SELECT name FROM people")

// The results of SQL queries are DataFrames and support all the normal RDD operations.
// The columns of a row in the result can be accessed by ordinal.
results.map(t => "Name: " + t(0)).collect().foreach(println)