DataFrame的read和write&SparkSQL&存储格式的转换

Spark编程最佳实践

Spark,SparkSql,SparkStreaming要导入如下隐式转换

import spark.implicits._

SparkSql要多导入如下隐式转换

import org.apache.spark.sql.functions._

DataFrame

在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。反观RDD,由于无从得知所存数据元素的具体内部结构,Spark Core只能在stage层面进行简单、通用的流水线优化。在这里插入图片描述
DataFrame的read和write
json
read

def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .master("local")
      .appName(this.getClass.getSimpleName)
      .getOrCreate()
    val df: DataFrame = spark.read.json("D:\\testlog\\people.json")
    import spark.implicits._
    //可以使用UDF
    df.select($"name",$"age").show()
    //不可以使用UDF,适用于大部分场景
    df.select("name","age").show()
    //不建议使用
    df.select(df.col("name"),df.col("age")).show()
    spark.stop()
 }

select方法用于选择要输出的列,推荐使用$"col"和"col"的方法

  • 使用select方法可以选取打印的列,空值为null
  • show()默认打印20条数据,可以指定条数
  • truncate默认true,截取长度,可以设置为false

其中json读取的时候有三种模式
在这里插入图片描述
举例数据

{“name”:“Michael”}
{:“Andy”, “age”:30}
{“name”:“Justin”, “age”:19}
{“name”:“Jim”, “age”:30}

默认模式是PERMISSIVE:错误的行显示出来
在这里插入图片描述
FAILFAST模式下:直接抛出异常

DROPMALFORMED模式:丢掉错误的解析列
在这里插入图片描述
使用方法如下

spark
      .read
        .option("mode","FAILFAST")
        .json("D:\\testlog\\people1.json")

filter写法

 df.select($"name",$"age").filter('name === "Andy").show() //推荐使用
 df.select($"name",$"age").filter(df("name") === "Andy").show()
 df.select($"name",$"age").filter("name = 'Andy'").show()

write

 val df1 = df.select($"name",$"age").filter('name === "Andy")
 df1.write.mode(SaveMode.Overwrite).json("D:\\testlog\\aa.json")

Save操作可以选择使用SaveMode,它指定目标如果存在,如何处理现有数据。重要的是要认识到,这些保存模式不利用任何锁定,也不是原子性的。此外,在执行覆盖时,在写入新数据之前将删除数据。

Scala/JavaAny LanguageMeaning
SaveMode.ErrorIfExists (default)“error” or “errorifexists” (default)在将DataFrame保存到数据源时,如果数据已经存在,则会抛出error。
SaveMode.Append“append”在将DataFrame保存到数据源时,如果数据/表已经存在,则DataFrame的内容将被append到现有数据中。
SaveMode.Overwrite“overwrite”overwrite模式意味着在将DataFrame保存到数据源时,如果数据/表已经存在,则现有数据将被DataFrame的内容覆盖。
SaveMode.Ignore“ignore”ignore模式意味着在将DataFrame保存到数据源时,如果数据已经存在,则save操作不保存DataFrame的内容,也不更改现有数据。这类似于SQL中的CREATE TABLE IF NOT EXISTS。

Text

read

def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .master("local")
      .appName(this.getClass.getSimpleName)
      .getOrCreate()

    import spark.implicits._
    
    val df: DataFrame = spark.read.format("text").load("D:\\testlog\\infos.txt")
    
 	//转换成RDD
    df.rdd.map(row=>{
      val rows = row.getString(0).split(",")
      (rows(1), rows(2))
    }).foreach(println(_))
    
    //dataFrame不能直接split
    //返回是dataSet
    val mapDS: Dataset[(String, String)] = df.map(row => {
      val rows = row.getString(0).split(",")
      (rows(1), rows(2))
    })
    mapDS.show()

    //DataSet转换成DataFrame
    val mapDF = mapDS.toDF()
    mapDF.show()

    //使用textFile方法读取文本文件直接返回是一个DataSet
    val textDS: Dataset[String] = spark.read.textFile("D:\\testlog\\infos.txt")
    textDS.map(row =>{
      val rows = row.split(",")
     (rows(0),rows(1), rows(2))
    }).show()
    spark.stop()
 }

文本数据读进来的一行在一个字段里面,所以要使用map算子,在map中split

  • 直接read.format()读进来的是DataFrame,map中不能直接split
  • DataFrame通过.rdd的方式转换成RDD,map中也不能直接split
  • 通过read.textFile()的方式读进来的是Dataset,map中可以split

write

 val textDS: Dataset[String] = spark.read.textFile("D:\\testlog\\infos.txt")
 val writeDS = textDS.map(row => {
      val rows = row.split(",")
      //拼接成一列
      (rows(1) + "," + rows(2))
 })
 writeDS.write.format("text").mode(SaveMode.Overwrite).save("D:\\testlog\\bb.txt")

文本数据写出去的时候

  • 不支持int类型,如果存在int类型,会报错,解决办法是toString,转换成字符串
  • 只能作为一列输出,如果是多列,会报错,解决办法是拼接起来,组成一列
    文本数据压缩输出,只要是Spark支持的压缩的格式,都可以指定
writeDS.write.format("text")
      // 添加压缩操作
      .option("compression","gzip")
      .mode(SaveMode.Overwrite).save("D:\\testlog\\bb.txt")

csv
read

 val df = spark.read.format("csv")
      .option("header","true")
      .option("sep",",")
      .option("interSchema","true")
      .load("D:\\testlog\\sales.csv")

csv读取数据注意使用几个参数

  • 指定表头:option(“header”, “true”)
  • 指定分隔符:option(“sep”, “;”)
  • 类型自动推测:option(“interSchema”,“true”)

JDBC
read
依赖

<dependency>
    <groupId>com.typesafe</groupId>
    <artifactId>config</artifactId>
</dependency>
<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
</dependency>

application.conf文件

db.default.driver="com.mysql.jdbc.Driver"
db.default.url="jdbc:mysql://ruozedata001:6619/xxx?characterEncoding=utf-8"
db.default.user="xxx"
db.default.password="xxx"
db.default.source="xxx"
db.default.db="xxx"

db.default.poolInitialSize=10
db.default.poolMaxSize=20
db.default.connectionTimeoutMillis=1000
 def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .master("local")
      .appName(this.getClass.getSimpleName)
      .getOrCreate()

    //获取配置文件中的值,db.default开头
    val conf = ConfigFactory.load()
    val driver = conf.getString("db.default.driver")
    val url = conf.getString("db.default.url")
    val user = conf.getString("db.default.user")
    val password = conf.getString("db.default.password")
    val source = conf.getString("db.default.source")
    val db = conf.getString("db.default.db")

    val df = spark.read.format("jdbc")
      .option("url",url)
      .option("dbtable",s"$db.$source")
      .option("user",user)
      .option("password",password)
      .option("driver",driver)
      .load()

    df.createOrReplaceTempView("t_emp")

    spark.sql("select * from t_emp").show()

    spark.stop()
  }

df.createOrReplaceTempView()方法创建一个DataFrame数据生成的临时表,提供spark.sql()使用SQL操作数据,返回的也是一个DataFrame

write

 val writeDF = spark.sql("select * from t_emp")

 writeDF.write.format("jdbc")
      .option("url",url)
      .option("dbtable",s"$db.$source")
      .option("user",user)
      .option("password",password)
      .option("driver",driver).mode(SaveMode.Overwrite)
      .save()

SparkSQL

需求:每个平台每个省市的流量前2

def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .master("local[*]")
      .appName(this.getClass.getSimpleName)
      .getOrCreate()

    import spark.implicits._
    val df = spark.read.textFile("D:\\ssc\\access.log")
    val accessDF = df.map(x => {
      val splits = x.split("\t")
      val platform = splits(1)
      val traffic = splits(6).toLong
      val province = splits(8)
      val city = splits(9)
      val isp = splits(10)
      (platform, traffic, province, city, isp)
    }).toDF("platform", "traffic", "province", "city", "isp")
    accessDF.createOrReplaceTempView("t_access")

    val topNSQL =
      """
        |select * from (
        |select t.*,row_number() over (partition by t.platform order by t.cnt desc) as r from (
        |select platform,province,city,sum(traffic) as cnt from t_access group by platform,province,city
        |)t
        |)a where a.r <= 1
      """.stripMargin
    spark.sql(topNSQL).show()
    spark.stop()
  }

如果只是简单聚和统计可以使用API
分组,求和,别名,降序

import org.apache.spark.sql.functions._
accessDF.groupBy("platform", "province", "city")
.agg(sum("traffic").as("traffics"))
.sort('traffics.desc).show()

存储格式转换

Spark的时候只需要在df.write.format(“orc”).mode().save()中指定格式即可,如orc

df.write.format("orc").mode("overwrite").save("out")
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值