Spark——DataFrame 读写和保存数据

9 篇文章 0 订阅
8 篇文章 0 订阅

原文链接:https://mp.toutiao.com/profile_v3/graphic/preview?pgc_id=6849695183043297804

本文主要从以下几个方面介绍Spark中的DataFrame读写和保存

第一,DataFrame的介绍

第二,Spark所支持的读写文件格式及示例

第一,DataFrame的介绍

DataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是:DataFrame不再直接继承自RDD,而是自己实现了RDD的绝大多数功能。你仍旧可以在DataFrame上调用rdd方法将其转换为一个RDD。DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库的二维表格,DataFrame带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。

具体的介绍可以参考SparkSQL——DataFrame的创建与使用

第二,Spark所支持的读写文件格式及示例

常见的读取、存取数据来源为:text、cvs、jdbc数据库、parquet等。

1、其中,text文件的读取、存储较为常见,它可以是本机文件路径,但是如果多个机器上同时运行Executor要保证这几个机器的相同路径上都有该文件。所以,一般是读取HDFS文件系统中的文件。

主要通过sparkcontex的textFile方法读取文件,RDD上的saveAsTextFile方法存储文件。

 
val lines: RDD[String] = session.sparkContext.textFile("hdfs://master:9000/test/sparkSQL/person.txt")
 
rowRDD.saveAsTextFile("./out")

注意:DataSrt[Row]格式的数据无法写入到text文件中,因为text文件不含表头信息,它只能保存一列的数据,多列的数据保存时会报错。

2、csv文件

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。它具有以下特点:

  • 纯文本,使用某个字符集,比如ASCII、Unicode、EBCDIC或GB2312;
  • 由记录组成(典型的是每行一条记录);
  • 每条记录被分隔符分隔为字段(典型分隔符有逗号、分号或制表符;有时分隔符可以包括可选的空格);
  • 每条记录都有同样的字段序列。

CSV的文件是不带表头信息的,即不存每一列的属性名,类型。在读取CSV文件的时候,系统会默认的将每一行作为一条记录,每个字段的类型都是String类型,需要将字段转化为想要的类型。

csv文件:

 

 

package xxx

import org.apache.spark.sql.types.{DoubleType, IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

/**
 * csv格式的数据中,只存有字段的值,并没有字段的属性(名称、类型)等信息,需要指定
 */
object readDataFromCSV {
  def main(args: Array[String]): Unit = {
    val session: SparkSession = SparkSession.builder().appName("ReadDataFromCSV").master("local[*]").getOrCreate()

    // 读取csv文件
    val frame: DataFrame = session.read.csv("./out.csv1")

    // 指明列名,列的属性默认全部是String类型的
    val frame1: DataFrame = frame.toDF("province", "num")

    // 将num列的属性类型改为Int
    frame1("num").cast(IntegerType)

    import session.implicits._
    val value: Dataset[Row] = frame1.where($"num" > 500)

    // 存为csv文件
    value.write.csv("./outcsv")

    value.show()

    session.stop()
  }
}

3、通过JDBC读取mysql数据库中的数据。

通过SparkSession的.read.format("jdbc").options设置各个参数读取数据,通过Dataset[Row]的write.mode方法来写入数据库。

package xxx

import java.util.Properties

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object readDataFromJDBC {
  def main(args: Array[String]): Unit = {
    val session: SparkSession = SparkSession.builder().appName("ReadDataFromJDBC").master("local[*]").getOrCreate()

    //从数据库中加载数据
    val logs: DataFrame = session.read.format("jdbc").options(
      Map("url" -> "jdbc:mysql://slave3:3306/bigdata",
        "driver" -> "com.mysql.jdbc.Driver",
        "dbtable" -> "province",
        "user" -> "root",
        "password" -> "root"
      )).load()

    // 过滤方法1, RDD方法
//    val filtered: Dataset[Row] = logs.filter(row => {
//      row.getAs[Int](1) <= 1000
//    })

    // 过滤方法2, lambda表达
    import session.implicits._
    val filtered: Dataset[Row] = logs.filter($"num" <= 1000)

    // 将过滤后的数据写入新的表,新表可以不存在
    val properties = new Properties()
    properties.put("user", "root")
    properties.put("password", "root")
    // mode 参数: ignore 若表存在,不作任何处理; overwrite 表示覆盖  append 表示追加
    filtered.write.mode("ignore").jdbc("jdbc:mysql://slave3:3306/bigdata", "filter_province", properties)

    filtered.show()


    session.stop()

  }

}

 

4、Parquet文件

parquent是一种流行的列式存储格式,可以高效地存储具有嵌套字段的记录。Parquet是语言无关的,而且不与任何一种数据处理框架绑定在一起,适配多种语言和组件,能够与Parquet配合的组件有:
    * 查询引擎: Hive, Impala, Pig, Presto, Drill, Tajo, HAWQ, IBM Big SQL
    * 计算框架: MapReduce, Spark, Cascading, Crunch, Scalding, Kite
    * 数据模型: Avro, Thrift, Protocol Buffers, POJOs
  Spark已经为我们提供了parquet样例数据,就保存在“/usr/local/spark/examples/src/main/resources/”这个目录下,有个users.parquet文件,这个文件格式比较特殊,如果你用vim编辑器打开,或者用cat命令查看文件内容,肉眼是一堆乱七八糟的东西,是无法理解的。只有被加载到程序中以后,Spark会对这种格式进行解析,然后我们才能理解其中的数据。

 

parquet既保存数据又保存schema信息(列的名称、类型、列的偏移量(它的文件中没有换行,相同列的数据存在一起,而不是一个记录的数据存在一起))

package xxx

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

/**
 * parquet既保存数据又保存schema信息(列的名称、类型、列的偏移量(
 * 它的文件中没有换行,相同列的数据存在一起,而不是一个记录的数据存在一起))
 */
object readDataFromPart {
  def main(args: Array[String]): Unit = {
    val session: SparkSession = SparkSession.builder().appName("ReadDataFromCSV").master("local[*]").getOrCreate()

  // 读数据
    val frame: DataFrame = session.read.parquet("./out.par")

    import session.implicits._
    val value: Dataset[Row] = frame.where($"num" > 500)

  // 写数据
    value.write.parquet("./outppar")
    
    value.show()
  
    session.stop()

  }
}

5、 Json 文件

  如果 JSON 文件中每一行就是一个 JSON 记录,那么可以通过将 JSON 文件当做文本

文件来读取,然后利用相关的 JSON 库对每一条数据进行 JSON 解析

 

 

package xxx

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object readDataFromJSON {

  def main(args: Array[String]): Unit = {

    val session: SparkSession = SparkSession.builder().appName("ReadDataFromJSON").master("local[*]").getOrCreate()

  // 读数据
    val frame: DataFrame = session.read.json("./out.json")

    import session.implicits._
    val value: Dataset[Row] = frame.where($"num" < 500)

  // 写数据
    value.write.json("./outjson")
    
    value.show()

    session.stop()
  }

}

 

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark SQL中的DataFrame和Dataset是两种非常重要的数据结构,它们都是基于RDD的分布式数据集,但是它们提供了更高级别的API,可以更方便地进行数据处理和分析。 DataFrame是一种类似于关系型数据库中表的数据结构,它由一组有命名的列组成,每个列都有一个数据类型。DataFrame可以通过SQL语句或者DataFrame API进行查询和操作,支持类似于SQL的聚合、过滤、排序等操作,同时也支持复杂的数据类型和嵌套结构。 Dataset是Spark 1.6版本引入的新概念,它是一个类型安全的分布式数据集,可以通过编译时检查来避免类型错误。Dataset可以看作是DataFrame的扩展,它支持更多的操作和更高级别的API,同时也提供了更好的性能和可维护性。 总的来说,DataFrame和Dataset都是Spark SQL中非常重要的数据结构,它们提供了更高级别的API和更好的性能,可以帮助我们更方便地进行数据处理和分析。 ### 回答2: DataFrame和DataSet是Spark SQL中处理数据的两种最常用的API。在这两个API中,数据使用的是表格形式,而且API的使用非常类似。然而,在很多情况下,DataFrame和DataSet还是有些不同的。 DataFrameSpark SQL中的一个关系数据,可以从各种数据源中读取数据,例如:结构化数据文件、Hive中的表、外部关系数据库中的表、Avro文件等等。DataFrame是基于分布式数据集的一组数据结构,每个数据集都分为行和列,并且有一个命名的列。DataFrameSpark SQL中作为一种概念,表示分布式的数据集,就像一个表格一样,它具有由向量组成的列,每一列都有一个名称和数据类型。 DataSet在Spark 1.6中引入并在Spark 2.0中得到加强。DataSet是强类型API,它提供了类似于RDD的泛型编程接口,同时也继承了DataFrame的一些理念。与DataFrame不同的是,DataSet具有额外的类型安全和更好的性能。其中,DataSet是有类型的,也就是说,在DataSet中存储的数据必须要指定一个类,使用该类的实例来表示数据。 在使用的过程中,DataFrame和DataSet的区别表现在: 1. 类型:DataFrame是一组分布式数据集合,是无类型的 (untyped),因为它们只是在特定的列名和数据类型上进行了验证。而DataSet是强类型的 (typed),因为DataSet可以在编译时对数据的类型进行验证。 2. 优化:DataFrame提供了基于第一代Tungsten的基于列的计算引擎来优化计算,以支持高性能计算。而DataSet提供了基于第二代Tungsten的代码生成器,产生了比DataFrame更优化的代码。 3. 开发复杂度:代码开发的复杂度上,DataSet需要在类型定义中显式声明模式 (schemas),这会增加一些重复的代码,而DataFrame不需要这样做。 在实际使用过程中,一般情况下,若处理数据时进行数值处理、聚合操作或者切片取部分数据,可以使用 DataFrame。而当数据需要更多的定制操作、需要常规编程的工作时,就要使用 DataSet。 因此,对于数据的处理操作而言,DataFrame和DataSet都是非常重要的API,我们可以根据具体的业务需求来选择使用哪一种API。在使用这两个API时我们要根据自己的需求选择哪一种更适合自己的场景。 ### 回答3: Spark是当前最流行的大数据处理框架之一,它有着强大的处理能力和高效的分布式计算能力。在 Spark 中,DataFrame 和 DataSet 是两种常用的数据结构,它们提供了很多操作特性,使 Spark SQL 变得更加方便、快捷和高效。 DataFrame 是一种有结构的分布式数据集合,它是以列为中心的数据结构,具有传统上的行和列的属性。DataFrame 是使用 Spark SQL 系统中非常重要的概念,主要用于处理结构化数据DataFrame 支持多种数据源:csv 文件、JSON、Hive、ORC、Parquet、Apache Hive 和 JDBC 数据库等。另外,DataFrame 比 RDD 操作更加高效,在实现上采用了更高级的方法,例如使用 Catalyst 引擎进行优化和查询计划处理,同时还支持 SQL 操作。 DataSet 是 Spark 2.0 版本新增的数据结构,它是一个类型化的分布式数据集合,与 RDD 不同,它需要在编译期间就确定类型。DataSet 数据集合支持 Scala 和 Java 两种语言,并兼容 Spark 原有的操作特性,例如分布式处理、错误容错、高效计算等操作。DataSet 在类型安全和语言特性的支持上比 DataFrame 更加强大,因此可以避免在运行时出现类型匹配错误的问题。 与 DataFrame 相比,DataSet 具有更强的类型安全性和启发式优化特性,因此在某些情况下会比 DataFrame 更加高效和快速。但是,DataSet 操作有时会变得比较复杂,并且需要程序员具备额外的类型知识。因此,根据实际需求来选择适当的数据集合是非常重要的。 总的来说,DataFrame 和 DataSet 都是很重要的 Spark SQL 数据结构,在 Spark 编程中都有着不可替代的作用。使用 DataFrame 和 DataSet 可以帮助我们更加快速、方便地处理分布式数据,提高我们的开发效率和代码质量。建议根据项目的需要来选择使用哪种数据集合,在具体操作中尽量避免数据类型转换和类型匹配错误等问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值