先创建一个spark session
导包(根据自己的版本来选择,我用的是spark2.4.3):
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.4.3</version>
</dependency>
创建一个spark session,读取csv文件
import org.apache.spark.sql.SparkSession
object SparkSession_1 {
def main(args: Array[String]) {
//创建spark session
val sparkSession = SparkSession.builder.
master("local")
.appName("spark session example")
.getOrCreate()
//读取文件
val df = sparkSession.read.option("header","true").csv("G:/ccData/hz_weather.csv")
df.show()
//释放资源
sparkSession.stop()
}
}
查看结果:
至于读取的文件格式有这些:
使用SQL语句来实现操作
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
object SparkSession_2 {
def main(args: Array[String]) {
Logger.getLogger("org").setLevel(Level.ERROR)
val sparkSession = SparkSession.builder.
master("local")
.appName("spark session example")
.getOrCreate()
val df = sparkSession.read.option("header","true").csv("G:/ccData/hz_weather.csv")
//将DataFrame转换为一张表
df.createOrReplaceTempView("weather")//createOrReplaceTempView表示如果你没有这张表就创建一张,如果有就替换掉
//采用sql语句来访问数据
sparkSession.sql("select date from weather").show
//释放资源
sparkSession.stop()
}
}
实现RDD,DF,DS转换
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
object SparkSession_transform {
def main(args: Array[String]) {
Logger.getLogger("org").setLevel(Level.ERROR)
val spark = SparkSession.builder.
master("local")
.appName("spark session example")
.getOrCreate()
//进行转换之前,需要引入隐式转换规则
//import spark.implicits._
//这里的spark不是包名的意思,是sparkSession对象的名字
import spark.implicits._
//创建RDD[Int,String,Int]
val rdd=spark.sparkContext.makeRDD(List((1,"cc",17),(2,"qiqi",18),(3,"xiaohei",20)))
//转为DF
val df=rdd.toDF("id","name","age")
//转为DS
val ds=df.as[User]
//转为DF
val df1=ds.toDF()
//转为RDD[Row]
val rdd1=df1.rdd
rdd1.foreach(row=>{
//获取数据时,可以通过索引来访问数据
println(row.getString(1))
})
//释放资源
spark.stop
}
}
case class User(id:Int,name:String,age:Int)
结果:
实现RDD,DS转换
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
object SparkSession_transform2 {
def main(args: Array[String]) {
Logger.getLogger("org").setLevel(Level.ERROR)
val spark = SparkSession.builder.
master("local")
.appName("spark session example")
.getOrCreate()
//进行转换之前,需要引入隐式转换规则
//import spark.implicits._
//这里的spark不是包名的意思,是sparkSession对象的名字
import spark.implicits._
//创建RDD
val rdd=spark.sparkContext.makeRDD(List((1,"cc",17),(2,"qiqi",18),(3,"xiaohei",20)))
//转为DS
val userRDD=rdd.map{
case (id,name,age)=>{
User(id,name,age)
}
}
val userDS=userRDD.toDS()
val rdd1=userDS.rdd
rdd1.foreach(println)
//释放资源
spark.stop
}
}
结果: