一、概述
Spark SQL支持两种不同的方式将RDD转换为DataFrame。第一种是使用反射来推断包含特定类型对象的RDD的模式,这种基于反射的方式可以提供更简洁的代码,如果在编写Spark应用程序时,已经明确了schema,可以使用这种方式。第二种方式是通过可编程接口来构建schema,然后将其应用于现有的RDD。此方式编写的代码更冗长,但在不知道colum及其type的情况下,可以使用这种方式。
Michael, 29
Andy, 30
Justin, 19
二、RDD转DataFrame案例
1.通过反射的方式
Spark SQL的Scala接口支持自动将包含样例类的RDD转换为DataFrame。样例类定义表的schema。通过反射读取样例类的参数名称,并映射成column的名称。
package com.company.sparksql
import org.apache.log4j.{Level, Logger}
import org.apache.sp