代码块开发SparkSQL程序

先创建一个spark session

导包(根据自己的版本来选择,我用的是spark2.4.3):

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.11</artifactId>
    <version>2.4.3</version>
</dependency>

创建一个spark session,读取csv文件

import org.apache.spark.sql.SparkSession

object SparkSession_1  {

  def main(args: Array[String]) {
    
    //创建spark session
    val sparkSession = SparkSession.builder.
      master("local")
      .appName("spark session example")
      .getOrCreate()
     
    //读取文件
    val df = sparkSession.read.option("header","true").csv("G:/ccData/hz_weather.csv")
 
    df.show()
    
    //释放资源
    sparkSession.stop()
 
  }
}

查看结果:

至于读取的文件格式有这些:

使用SQL语句来实现操作

import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger

object SparkSession_2  {

  def main(args: Array[String]) {
    Logger.getLogger("org").setLevel(Level.ERROR)
    val sparkSession = SparkSession.builder.
      master("local")
      .appName("spark session example")
      .getOrCreate()
 
    val df = sparkSession.read.option("header","true").csv("G:/ccData/hz_weather.csv")
 
    //将DataFrame转换为一张表
    df.createOrReplaceTempView("weather")//createOrReplaceTempView表示如果你没有这张表就创建一张,如果有就替换掉
    
    //采用sql语句来访问数据
    sparkSession.sql("select date from weather").show
   
    
    
    //释放资源
    sparkSession.stop()
 
  }
}

实现RDD,DF,DS转换

import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger


object SparkSession_transform  {

  def main(args: Array[String]) {
    Logger.getLogger("org").setLevel(Level.ERROR)
    val spark = SparkSession.builder.
      master("local")
      .appName("spark session example")
      .getOrCreate()
      
      //进行转换之前,需要引入隐式转换规则
      //import spark.implicits._
      //这里的spark不是包名的意思,是sparkSession对象的名字
      
      import spark.implicits._
      //创建RDD[Int,String,Int]
      val rdd=spark.sparkContext.makeRDD(List((1,"cc",17),(2,"qiqi",18),(3,"xiaohei",20)))
      
      //转为DF
      val df=rdd.toDF("id","name","age")
      //转为DS
      val ds=df.as[User]
      
      //转为DF
      val df1=ds.toDF()
      //转为RDD[Row]
      val rdd1=df1.rdd
      
      rdd1.foreach(row=>{
        //获取数据时,可以通过索引来访问数据
        println(row.getString(1))
      })
      
      //释放资源
      spark.stop
    
 
  }
}


case class User(id:Int,name:String,age:Int)


结果:

实现RDD,DS转换

import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger


object SparkSession_transform2  {

  def main(args: Array[String]) {
    Logger.getLogger("org").setLevel(Level.ERROR)
    val spark = SparkSession.builder.
      master("local")
      .appName("spark session example")
      .getOrCreate()
      
      //进行转换之前,需要引入隐式转换规则
      //import spark.implicits._
      //这里的spark不是包名的意思,是sparkSession对象的名字
      
      import spark.implicits._
      //创建RDD
      val rdd=spark.sparkContext.makeRDD(List((1,"cc",17),(2,"qiqi",18),(3,"xiaohei",20)))
      
      //转为DS
      val userRDD=rdd.map{
      case (id,name,age)=>{
        User(id,name,age)
      }
    }
    
    val userDS=userRDD.toDS()
    
    val rdd1=userDS.rdd
    rdd1.foreach(println)
     
      //释放资源
      spark.stop
    
 
  }
}

结果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值