Spark的DataFrame和Schema详解和实战案例Demo

13 篇文章 0 订阅
8 篇文章 0 订阅

1、概念介绍

Spark是一个分布式计算框架,用于处理大规模数据处理任务。在Spark中,DataFrame是一种分布式的数据集合,类似于关系型数据库中的表格。DataFrame提供了一种更高级别的抽象,允许用户以声明式的方式处理数据,而不需要关心底层数据的细节和分布式计算的复杂性。Schema在Spark中用于描述DataFrame中的数据结构,类似于表格中的列定义。

让我们分别介绍一下DataFrame和Schema:

DataFrame:

DataFrame是由行和列组成的分布式数据集合,类似于传统数据库或电子表格的结构。Spark的DataFrame具有以下特点:
分布式计算:DataFrame是分布式的,可以在集群中的多个节点上进行并行处理,以实现高性能的大规模数据处理。
不可变性:DataFrame是不可变的,这意味着一旦创建,就不能修改。相反,对DataFrame的操作会生成新的DataFrame。
延迟执行:Spark采用了延迟执行策略,即DataFrame上的操作并不立即执行,而是在需要输出结果时进行优化和执行。
用户可以使用SQL语句、Spark的API或Spark SQL来操作DataFrame,进行数据过滤、转换、聚合等操作。DataFrame的优势在于其易用性和优化能力,Spark会根据操作的执行计划来优化整个计算过程,以提高性能。

Schema:

Schema是DataFrame中数据的结构描述,它定义了DataFrame的列名和列的数据类型。在Spark中,Schema是一个包含列名和数据类型的元数据集合。DataFrame的Schema信息对于优化计算和数据类型的正确解释至关重要。
通常,Schema是在创建DataFrame时自动推断的,也可以通过编程方式显式指定。指定Schema的好处是可以确保数据被正确解释并且避免潜在的类型转换错误。如果数据源不包含Schema信息或者需要修改Schema,可以使用StructType和StructField来自定义Schema。例如,可以创建一个包含多个字段和数据类型的Schema,如字符串、整数、日期等。

在使用Spark读取数据源时,如CSV文件、JSON数据、数据库表等,Spark会尝试自动推断数据的Schema。如果数据源本身没有提供足够的信息,可以使用schema选项来指定或者通过后续的数据转换操作来调整DataFrame的Schema。

总结:DataFrame是Spark中一种强大的分布式数据结构,允许用户以声明式的方式处理数据,而Schema则用于描述DataFrame中数据的结构信息,确保数据被正确解释和处理。这两个概念共同构成了Spark强大的数据处理能力。

代码实战

package test.scala

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.{IntegerType, StringType, StructType}

object TestSchema {
  def getSparkSession(appName: String, localType: Int): SparkSession = {
    val builder: SparkSession.Builder = SparkSession.builder().appName(appName)
    if (localType == 1) {
      builder.master("local[8]") // 本地模式,启用8个核心
    }

    val spark = builder.getOrCreate() // 获取或创建一个新的SparkSession
    spark.sparkContext.setLogLevel("ERROR") // Spark设置日志级别
    spark
  }

  def main(args: Array[String]): Unit = {
    println("Start TestSchema")
    val spark: SparkSession = getSparkSession("TestSchema", 1)

    val structureData = Seq(
      Row("36636", "Finance", Row(3000, "USA")),
      Row("40288", "Finance", Row(5000, "IND")),
      Row("42114", "Sales", Row(3900, "USA")),
      Row("39192", "Marketing", Row(2500, "CAN")),
      Row("34534", "Sales", Row(6500, "USA"))
    )

    val structureSchema = new StructType()
      .add("id", StringType)
      .add("dept", StringType)
      .add("properties", new StructType()
        .add("salary", IntegerType)
        .add("location", StringType)
      )

    val df = spark.createDataFrame(
      spark.sparkContext.parallelize(structureData), structureSchema)
    df.printSchema()
    df.show(false)

    val row = df.first()
    val schema = row.schema
    val structTypeList = schema.toList
    println(structTypeList.size)
    for (i <- 0 to structTypeList.size - 1) {
      val structType = structTypeList(i)
      println(structType.name, row.getAs(structType.name), structType.dataType, structType.dataType)
    }
  }
}

输出

Start TestSchema
Using Spark’s default log4j profile: org/apache/spark/log4j-defaults.properties
23/07/29 09:47:59 INFO SparkContext: Running Spark version 2.4.0
23/07/29 09:47:59 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
23/07/29 09:47:59 INFO SparkContext: Submitted application: TestSchema
23/07/29 09:47:59 INFO SecurityManager: Changing view acls to: Nebula
23/07/29 09:47:59 INFO SecurityManager: Changing modify acls to: Nebula
23/07/29 09:47:59 INFO SecurityManager: Changing view acls groups to:
23/07/29 09:47:59 INFO SecurityManager: Changing modify acls groups to:
23/07/29 09:47:59 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(Nebula); groups with view permissions: Set(); users with modify permissions: Set(Nebula); groups with modify permissions: Set()
23/07/29 09:48:01 INFO Utils: Successfully started service ‘sparkDriver’ on port 60785.
23/07/29 09:48:01 INFO SparkEnv: Registering MapOutputTracker
23/07/29 09:48:01 INFO SparkEnv: Registering BlockManagerMaster
23/07/29 09:48:01 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
23/07/29 09:48:01 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
23/07/29 09:48:01 INFO DiskBlockManager: Created local directory at C:\Users\Nebula\AppData\Local\Temp\blockmgr-6f861361-4d98-4372-b78a-2949682bd557
23/07/29 09:48:01 INFO MemoryStore: MemoryStore started with capacity 8.3 GB
23/07/29 09:48:01 INFO SparkEnv: Registering OutputCommitCoordinator
23/07/29 09:48:01 INFO Utils: Successfully started service ‘SparkUI’ on port 4040.
23/07/29 09:48:01 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://LAPTOP-PEA8R2PO:4040
23/07/29 09:48:01 INFO Executor: Starting executor ID driver on host localhost
23/07/29 09:48:01 INFO Utils: Successfully started service ‘org.apache.spark.network.netty.NettyBlockTransferService’ on port 60826.
23/07/29 09:48:01 INFO NettyBlockTransferService: Server created on LAPTOP-PEA8R2PO:60826
23/07/29 09:48:01 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
23/07/29 09:48:01 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, LAPTOP-PEA8R2PO, 60826, None)
23/07/29 09:48:01 INFO BlockManagerMasterEndpoint: Registering block manager LAPTOP-PEA8R2PO:60826 with 8.3 GB RAM, BlockManagerId(driver, LAPTOP-PEA8R2PO, 60826, None)
23/07/29 09:48:01 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, LAPTOP-PEA8R2PO, 60826, None)
23/07/29 09:48:01 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, LAPTOP-PEA8R2PO, 60826, None)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 需要使用Spark SQL中的DataFrame API和Parquet数据源来实现合并Parquet格式的DataFrameSchema,具体步骤如下: 1. 读取需要合并的Parquet文件,使用`spark.read.parquet()`方法将Parquet文件转换为DataFrame。 2. 使用`select()`方法选择需要保留的列,并使用`withColumnRenamed()`方法重命名列名。 3. 使用`union()`方法将上一步中处理完的多个DataFrame合并为一个DataFrame。 4. 最后,可以使用`printSchema()`方法来查看合并后的DataFrameSchema信息。 完整代码样例如下: ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName("merge_parquet").getOrCreate() # 读取需要合并的Parquet文件 df1 = spark.read.parquet("path/to/parquet1") df2 = spark.read.parquet("path/to/parquet2") # 选择需要保留的列,并重命名列名 df1_select = df1.select("col1", "col2").withColumnRenamed("col1", "new_col1") df2_select = df2.select("col3", "col4").withColumnRenamed("col3", "new_col3") # 合并DataFrame merged_df = df1_select.union(df2_select) # 查看合并后的DataFrameSchema信息 merged_df.printSchema() ``` ### 回答2: Spark SQL是一种使用Spark引擎进行数据处理和分析的高效工具,它支持不同格式的数据文件,其中包括parquet格式的文件。在Spark SQL中,合并多个parquet格式的dataframe是一项常见的任务。合并parquet数据需要合并它们的schema(数据结构)),然后对数据进行规范化,以确保数据的一致性和可读性。 要实现合并parquet格式的dataframeschema,首先需要使用Spark SQL中的read方法读取,将parquet格式的dataframe加载到内存中,然后使用Dataframe API的union()方法将不同的dataframe合并在一起。这个方法将返回一个包含所有数据的新dataframe。 在合并多个parquet格式的dataframe之后,我们可以通过spark.sql("set spark.sql.parquet.mergeSchema=true")来启用合并schema的选项。这个选项可以确保新的dataframeschema合并所有合并的dataframeschema,以便后续的数据操作和分析可以得到正确的结果。 同时,在合并dataframe之前,需要确保它们具有相同的schema。如果它们的schema不同,可以使用Dataframe API的select()方法来选择合并的列。在这里,我们可以使用以下代码选择合并的列: df1 = df1.select("col1", "col2") df2 = df2.select("col1", "col2") 然后再使用Dataframe API的union()方法将两个dataframe合并。最后,我们在新的dataframe上进行Spark SQL的数据操作和分析。 总之,合并多个parquet格式的dataframeschema是一项重要的任务,它可以确保数据的一致性和可读性。这个过程可以轻松地完成,只需使用Dataframe API的union()方法将不同的dataframe合并在一起,并使用选项spark.sql.parquet.mergeSchema来确保新的dataframeschema与其合并的dataframeschema相同。 ### 回答3: 对于Spark SQL编程中,需要实现合并Parquet格式的DataFrameschema,可以参考以下步骤进行操作。 首先,需要导入相关依赖包,包括Spark SQL和Parquet的相关包,例如: ```scala import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.sql.functions._ import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType} ``` 然后,可以创建一个SparkSession,用于与Spark集群进行交互,并读取需要合并的数据文件,例如: ```scala val sparkConf = new SparkConf() .setAppName("Merge Parquet Schema") .setMaster("local[*]") val spark = SparkSession.builder() .config(sparkConf) .getOrCreate() // 读取两个文件,将其合并 val df1 = spark.read.parquet("path/to/parquet/file1") val df2 = spark.read.parquet("path/to/parquet/file2") val mergedDf = df1.union(df2) ``` 接下来,需要定义新的DataFrame结构,以便于在合并过程中,将列的属性进行统一,例如: ```scala val newSchema = StructType(Array( StructField("id", IntegerType, true), StructField("name", StringType, true), StructField("employer", StringType, true) )) ``` 这里,我们定义了三个字段,分别是id、name和employer,并指定它们的数据类型。 最后一步,就是将合并后的DataFrame结构进行调整,以使其与新的schema匹配,例如: ```scala val adjustedDf = mergedDf .withColumnRenamed("company", "employer") .select("id", "name", "employer") .repartition(1) .write .option("compression", "snappy") .parquet("path/to/output/parquet/file") // 指定新的schema val mergedDfWithSchema = spark.read.option("mergeSchema", "true") .schema(newSchema) .parquet("path/to/output/parquet/file") ``` 这里,我们使用withColumnRenamed函数将列名进行替换,使用select函数选择需要保留的列,使用repartition函数将分区数设置为1,使用write函数进行数据写入并指定数据压缩方式,最后使用read函数读取写入的数据文件,并使用schema函数指定新的DataFrame结构。而通过指定mergeSchema为true,则可以确保所有列的属性都会被统一起来。 综上所述,通过以上的步骤,我们可以实现合并Parquet格式的DataFrameschema,达到数据整合的目的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值