第64课:Spark SQL下Parquet的数据切分和压缩内幕详解

175 篇文章 3 订阅
33 篇文章 0 订阅

内容:

    1.SparkSQL下的Parquet数据切分
    2.SparkSQL下的Parquet数据压缩

一、SparkSQL下的Parquet数据切分

    Table partitioning (表分区)是在像 Hive 这样的系统中使用的常见的优化方法. 在 partitioned table (分区表)中, 数据通常存储在不同的目录中, partitioning column values encoded (分区列值编码)在每个 partition directory (分区目录)的路径中. Parquet data source (Parquet 数据源)现在可以自动 discover (发现)和 infer (推断)分区信息. 例如, 我们可以使用以下 directory structure (目录结构)将所有以前使用的 population data (人口数据)存储到 partitioned table (分区表)中, 其中有两个额外的列 gender 和 country 作为 partitioning columns (分区列):

    path
    └── to
        └── table
            ├── gender=male
            │   ├── ...
            │   │
            │   ├── country=US
            │   │   └── data.parquet
            │   ├── country=CN
            │   │   └── data.parquet
            │   └── ...
            └── gender=female
                ├── ...
                │
                ├── country=US
                │   └── data.parquet
                ├── country=CN
                │   └── data.parquet
                └── ...
    通过将 path/to/table 传递给 SparkSession.read.parquet 或 SparkSession.read.load , Spark SQL 将自动从路径中提取 partitioning information (分区信息). 现在返回的 DataFrame 的 schema (模式)变成:

    root
    |-- name: string (nullable = true)
    |-- age: long (nullable = true)
    |-- gender: string (nullable = true)
    |-- country: string (nullable = true)
    请注意, 会自动 inferred (推断) partitioning columns (分区列)的 data types (数据类型).目前, 支持 numeric data types (数字数据类型)和 string type (字符串类型).有些用户可能不想自动推断 partitioning columns (分区列)的数据类型.对于这些用例, automatic type inference (自动类型推断)可以由 spark.sql.sources.partitionColumnTypeInference.enabled 配置, 默认为 true .当禁用 type inference (类型推断)时, string type (字符串类型)将用于 partitioning columns (分区列).

    从 Spark 1.6.0 开始, 默认情况下, partition discovery (分区发现)只能找到给定路径下的 partitions (分区).对于上述示例, 如果用户将 path/to/table/gender=male 传递给 SparkSession.read.parquet 或 SparkSession.read.load , 则 gender 将不被视为 partitioning column (分区列).如果用户需要指定 partition discovery (分区发现)应该开始的基本路径, 则可以在数据源选项中设置 basePath.例如, 当 path/to/table/gender=male 是数据的路径并且用户将 basePath 设置为 path/to/table/, gender 将是一个 partitioning column (分区列).

二、SparkSQL下的Parquet数据压缩

    parquetBlocksize总体上讲是压缩后的大小,Parquet非常耗内存,采用高压缩比率,采用很多Cache。解压后的大小是解压前的5-10倍。BlockSize采用默认256MB。

    private static final Log LOG = Log.getLog(ParquetOutputFormat.class); 
    public static final String BLOCK_SIZE = “parquet.block.size”; 
    public static final String PAGE_SIZE = “parquet.page.size”; 
    public static final String COMPRESSION = “parquet.compression”; 
    public static final String WRITE_SUPPORT_CLASS = “parquet.write.support.class”; 
    public static final String DICTIONARY_PAGE_SIZE = “parquet.dictionary.page.size”; 
    public static final String ENABLE_DICTIONARY = “parquet.enable.dictionary”; 
    public static final String VALIDATION = “parquet.validation”; 
    public static final String WRITER_VERSION = “parquet.writer.version”; 
    public static final String ENABLE_JOB_SUMMARY = “parquet.enable.summary-metadata”; 
    public static final String MEMORY_POOL_RATIO = “parquet.memory.pool.ratio”; 
    public static final String MIN_MEMORY_ALLOCATION = “parquet.memory.min.chunk.size”;
 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark SQL可以通过DataFrame API或SQL语句来操作外部数据源,包括parquet、hive和mysql等。其中,parquet是一种列式存储格式,可以高效地存储和查询大规模数据;hive是一种基于Hadoop的数据仓库,可以通过Spark SQL来查询和分析;而mysql是一种常见的关系型数据库,可以通过Spark SQL来读取和写入数据。在使用Spark SQL操作外部数据源时,需要先创建DataFrame或注册表,然后通过API或SQL语句来进行数据的读取、过滤、聚合等操作。同时,还可以通过Spark SQL的连接器来实现不同数据源之间的数据传输和转换。 ### 回答2: Spark SQL 是 Apache Spark 中的一个模块,用于在大规模数据集上进行结构化数据处理。它支持多种数据源,并提供了访问、查询和操作这些数据源的功能。 对于外部数据源的操作,Spark SQL 提供了适配器和驱动程序来连接不同的数据源。下面简单介绍一下对于三种常见的数据源(Parquet、Hive、MySQL)的操作方式: 1. ParquetParquet 是一种列式存储格式,适用于大规模数据存储和分析。对于 Parquet 数据源,Spark SQL 提供了原生的支持,你可以直接使用 `spark.read.parquet()` 方法读取 Parquet 文件,并通过 `write.parquet()` 方法写入 Parquet 文件。Spark SQL 会自动推断 Parquet 文件的模式(schema),你也可以通过指定模式参数来指定具体的模式。 2. Hive:Hive 是一个数据仓库基础设施,可以在 Hadoop 上进行数据仓库的处理和查询。Spark SQL 可以与 Hive 结合使用,使用 Hive 提供的 metastore 来管理表和模式,通过 HiveQL(Hive 查询语言)来查询和操作 Hive 数据。你可以通过 `spark.sql()` 方法来执行 HiveQL 查询,也可以使用 `registerTempTable()` 方法将一个 Spark DataFrame 注册为一个临时表,然后通过 SQL 语句查询这个临时表。 3. MySQL:MySQL 是一种关系型数据库管理系统,Spark SQL 也可以与 MySQL 进行集成。首先,需要在 Spark 中导入相应的 MySQL 驱动程序,例如 "com.mysql.jdbc.Driver"。然后,通过 `spark.read.format("jdbc")` 方法来读取 MySQL 数据库中的表,你需要指定连接 URL、表名、用户名和密码等参数。使用相同的方式,你也可以将 Spark DataFrame 写入到 MySQL 数据库中。 总结起来,Spark SQL 对于 Parquet、Hive 和 MySQL 这些外部数据源都提供了直接的支持和集成。通过适配器和驱动程序,你可以使用 Spark SQL 的 API 和功能来读取、写入、查询和操作这些外部数据源中的数据

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值