Spark2.2(三)SparkSql数据源

本文深入探讨Spark 2.2中SparkSql的数据源,介绍如何使用SparkSql进行数据操作和管理。
摘要由CSDN通过智能技术生成

SparkSql数据源

package doc.df

import java.util.Properties

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.mapred.{FileOutputFormat, JobConf}
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
import org.apache.spark.sql.SparkSession

/**
  * @Program: doc.df
  * @Author: huangwei
  * @Date: 2019/9/17 10:00
  * @description:  数据源
  */
object DataSource {

  case class Perple(name:String,age:Long)

  class myOutput extends MultipleTextOutputFormat[Any,Any]{
    // 重写generateFileNmaeKeyValue  该方法是负责自定义生成文件的文件名
    override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String = {
      val fileName = key.asInstanceOf[String] + ".txt"
      fileName
    }

    override def generateActualKey(key: Any, value: Any): Any = {
      null
    }

    override def checkOutputSpecs(ignored: FileSystem, job: JobConf): Unit = {
      var outDir:Path = FileOutputFormat.getOutputPath(job)
      if (outDir != null){
        val fs:FileSystem = ignored
        outDir = fs.makeQualified(outDir)
        FileOutputFormat.setOutputPath(job,outDir)
      }
    }

  }

  // 基本的几种数据源
  private def baseDataSource(spark:SparkSession): Unit ={
    // 1、读取parqut文件 Parqut是一种列式存储,写Parqut文件时,所有列都会自动地转化为nullable,以便向后兼容
    val userDF = spark.read.load("src/main/resources/users.parquet")
    userDF.show()
//    +------+--------------+----------------+
//    |  name|favorite_color|favorite_numbers|
//    +------+--------------+----------------+
//    |Alyssa|          null|  [3, 9, 15, 20]|
//    |   Ben|           red|              []|
//    +------+--------------+----------------+
//    userDF.select("name","favorite_color").write.save("src/main/resources/namesAndFavColors.parquet")
//    val nameAndColorDF = spark.read.load("src/main/resources/namesAndFavColors.parquet") // spark输出会生成一个文件目录,如果需要生成指定的文件名,需要自定义输出
//    nameAndColorDF.show()
//    +------+--------------+
//    |  name|favo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值