DataFrame的read和write&SparkSQL&存储格式的转换

最新推荐文章于 2022-10-14 17:46:17 发布

jim8973

最新推荐文章于 2022-10-14 17:46:17 发布

阅读量4.4k

点赞数 1

分类专栏： sparksql

本文链接：https://blog.csdn.net/jim8973/article/details/105610756

版权

sparksql 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Spark编程最佳实践

Spark,SparkSql,SparkStreaming要导入如下隐式转换

import spark.implicits._

SparkSql要多导入如下隐式转换

import org.apache.spark.sql.functions._

DataFrame

在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。在这里插入图片描述
DataFrame的read和write
json
read

def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .master("local")
      .appName(this.getClass.getSimpleName)
      .getOrCreate()
    val df: DataFrame = spark.read.json("D:\\testlog\\people.json")
    import spark.implicits._
    //可以使用UDF
    df.select($"name",$"age").show()
    //不可以使用UDF,适用于大部分场景
    df.select("name","age").show()
    //不建议使用
    df.select(df.col("name"),df.col("age")).show()
    spark.stop()
 }

select方法用于选择要输出的列，推荐使用$"col"和"col"的方法

使用select方法可以选取打印的列，空值为null
show()默认打印20条数据，可以指定条数
truncate默认true,截取长度，可以设置为false

其中json读取的时候有三种模式
在这里插入图片描述
举例数据

{“name”:“Michael”}
{:“Andy”, “age”:30}
{“name”:“Justin”, “age”:19}
{“name”:“Jim”, “age”:30}

默认模式是PERMISSIVE：错误的行显示出来
在这里插入图片描述
FAILFAST模式下：直接抛出异常

DROPMALFORMED模式：丢掉错误的解析列
在这里插入图片描述
使用方法如下

spark
      .read
        .option("mode","FAILFAST")
        .json("D:\\testlog\\people1.json")

filter写法

 df.select($"name",$"age").filter('name === "Andy").show() //推荐使用
 df.select($"name",$"age").filter(df("name") === "Andy").show()
 df.select($"name",$"age").filter("name = 'Andy'").show()

write

 val df1 = df.select($"name",$"age").filter('name === "Andy")
 df1.write.mode(SaveMode.Overwrite).json("D:\\testlog\\aa.json")

Save操作可以选择使用SaveMode，它指定目标如果存在，如何处理现有数据。重要的是要认识到，这些保存模式不利用任何锁定，也不是原子性的。此外，在执行覆盖时，在写入新数据之前将删除数据。

Scala/Java	Any Language	Meaning
SaveMode.ErrorIfExists (default)	“error” or “errorifexists” (default)	在将DataFrame保存到数据源时，如果数据已经存在，则会抛出error。
SaveMode.Append	“append”	在将DataFrame保存到数据源时，如果数据/表已经存在，则DataFrame的内容将被append到现有数据中。
SaveMode.Overwrite	“overwrite”	overwrite模式意味着在将DataFrame保存到数据源时，如果数据/表已经存在，则现有数据将被DataFrame的内容覆盖。
SaveMode.Ignore	“ignore”	ignore模式意味着在将DataFrame保存到数据源时，如果数据已经存在，则save操作不保存DataFrame的内容，也不更改现有数据。这类似于SQL中的CREATE TABLE IF NOT EXISTS。

Text

read

def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .master("local")
      .appName(this.getClass.getSimpleName)
      .getOrCreate()

    import spark.implicits._
    
    val df: DataFrame = spark.read.format("text").load("D:\\testlog\\infos.txt")
    
 	//转换成RDD
    df.rdd.map(row=>{
      val rows = row.getString(0).split(",")
      (rows(1), rows(2))
    }).foreach(println(_))
    
    //dataFrame不能直接split
    //返回是dataSet
    val mapDS: Dataset[(String, String)] = df.map(row => {
      val rows = row.getString(0).split(",")
      (rows(1), rows(2))
    })
    mapDS.show()

    //DataSet转换成DataFrame
    val mapDF = mapDS.toDF()
    mapDF.show()

    //使用textFile方法读取文本文件直接返回是一个DataSet
    val textDS: Dataset[String] = spark.read.textFile("D:\\testlog\\infos.txt")
    textDS.map(row =>{
      val rows = row.split(",")
     (rows(0),rows(1), rows(2))
    }).show()
    spark.stop()
 }

文本数据读进来的一行在一个字段里面，所以要使用map算子，在map中split

直接read.format()读进来的是DataFrame，map中不能直接split
DataFrame通过.rdd的方式转换成RDD，map中也不能直接split
通过read.textFile()的方式读进来的是Dataset，map中可以split

write

 val textDS: Dataset[String] = spark.read.textFile("D:\\testlog\\infos.txt")
 val writeDS = textDS.map(row => {
      val rows = row.split(",")
      //拼接成一列
      (rows(1) + "," + rows(2))
 })
 writeDS.write.format("text").mode(SaveMode.Overwrite).save("D:\\testlog\\bb.txt")

文本数据写出去的时候

不支持int类型，如果存在int类型，会报错，解决办法是toString，转换成字符串
只能作为一列输出，如果是多列，会报错，解决办法是拼接起来，组成一列
文本数据压缩输出，只要是Spark支持的压缩的格式，都可以指定

writeDS.write.format("text")
      // 添加压缩操作
      .option("compression","gzip")
      .mode(SaveMode.Overwrite).save("D:\\testlog\\bb.txt")

csv
read

 val df = spark.read.format("csv")
      .option("header","true")
      .option("sep",",")
      .option("interSchema","true")
      .load("D:\\testlog\\sales.csv")

csv读取数据注意使用几个参数

指定表头：option(“header”, “true”)
指定分隔符：option(“sep”, “;”)
类型自动推测：option(“interSchema”,“true”)

JDBC
read
依赖

<dependency>
    <groupId>com.typesafe</groupId>
    <artifactId>config</artifactId>
</dependency>
<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
</dependency>

application.conf文件

db.default.driver="com.mysql.jdbc.Driver"
db.default.url="jdbc:mysql://ruozedata001:6619/xxx?characterEncoding=utf-8"
db.default.user="xxx"
db.default.password="xxx"
db.default.source="xxx"
db.default.db="xxx"

db.default.poolInitialSize=10
db.default.poolMaxSize=20
db.default.connectionTimeoutMillis=1000

 def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .master("local")
      .appName(this.getClass.getSimpleName)
      .getOrCreate()

    //获取配置文件中的值，db.default开头
    val conf = ConfigFactory.load()
    val driver = conf.getString("db.default.driver")
    val url = conf.getString("db.default.url")
    val user = conf.getString("db.default.user")
    val password = conf.getString("db.default.password")
    val source = conf.getString("db.default.source")
    val db = conf.getString("db.default.db")

    val df = spark.read.format("jdbc")
      .option("url",url)
      .option("dbtable",s"$db.$source")
      .option("user",user)
      .option("password",password)
      .option("driver",driver)
      .load()

    df.createOrReplaceTempView("t_emp")

    spark.sql("select * from t_emp").show()

    spark.stop()
  }

df.createOrReplaceTempView()方法创建一个DataFrame数据生成的临时表，提供spark.sql()使用SQL操作数据，返回的也是一个DataFrame

write

 val writeDF = spark.sql("select * from t_emp")

 writeDF.write.format("jdbc")
      .option("url",url)
      .option("dbtable",s"$db.$source")
      .option("user",user)
      .option("password",password)
      .option("driver",driver).mode(SaveMode.Overwrite)
      .save()

SparkSQL

需求：每个平台每个省市的流量前2

def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .master("local[*]")
      .appName(this.getClass.getSimpleName)
      .getOrCreate()

    import spark.implicits._
    val df = spark.read.textFile("D:\\ssc\\access.log")
    val accessDF = df.map(x => {
      val splits = x.split("\t")
      val platform = splits(1)
      val traffic = splits(6).toLong
      val province = splits(8)
      val city = splits(9)
      val isp = splits(10)
      (platform, traffic, province, city, isp)
    }).toDF("platform", "traffic", "province", "city", "isp")
    accessDF.createOrReplaceTempView("t_access")

    val topNSQL =
      """
        |select * from (
        |select t.*,row_number() over (partition by t.platform order by t.cnt desc) as r from (
        |select platform,province,city,sum(traffic) as cnt from t_access group by platform,province,city
        |)t
        |)a where a.r <= 1
      """.stripMargin
    spark.sql(topNSQL).show()
    spark.stop()
  }

如果只是简单聚和统计可以使用API
分组，求和，别名，降序

import org.apache.spark.sql.functions._
accessDF.groupBy("platform", "province", "city")
.agg(sum("traffic").as("traffics"))
.sort('traffics.desc).show()

存储格式转换

Spark的时候只需要在df.write.format(“orc”).mode().save()中指定格式即可，如orc

df.write.format("orc").mode("overwrite").save("out")

jim8973

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
DataFrame的read和write&SparkSQL&存储格式的转换

DataFrame在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化...
复制链接

扫一扫