PyDeequ库在AWS EMR启动集群中数据质量检查功能的配置方法和实现代码-CSDN博客

本文链接：https://blog.csdn.net/weixin_30777913/article/details/144490758

PyDeequ是一个基于Apache Spark的Python API，专门用于定义和执行“数据单元测试”，从而在大规模数据集中测量数据质量。
PyDeequ框架在PySpark代码中提供了全面的数据质量检查功能，能够帮助用户&有效地监控和提升大规模数据集的数据质量。它在PySpark代码中的数据质量检查功能主要包括以下几个方面：

核心组件

指标计算（Metrics Computation）：利用分析器（Analyzers）对数据集的每一列进行分析，生成数据概要。
约束建议：自动提出基于不同分析组的验证约束，以确保数据的一致性。
约束验证：依据设定的标准对数据集进行实时或批量验证。
度量存储库：实现对验证历史的跟踪与存储，便于持续监控数据质量。

功能特性

数据剖析：PyDeequ可以对数据集的每一列进行深入的剖析，包括数据的完整性、空值情况、唯一性统计等关键指标。
约束定义与验证：用户可以定义各种数据质量约束，如数据的类型、范围、唯一性、非空性等，并使用PyDeequ对这些约束进行验证。验证结果会明确指出哪些数据不符合预设的约束条件。
灵活性与可扩展性：PyDeequ支持用户根据业务需求自定义约束条件和分析规则，灵活应对各种数据质量挑战。同时，它也易于集成到现有的PySpark工作流中。
报告与监控：PyDeequ可以生成详细的数据质量报告，帮助用户了解数据集的整体质量情况。此外，它还支持对验证历史的跟踪与存储，便于用户持续监控数据质量的变化趋势。

应用场景

数据湖管理：在AWS Glue、Athena等服务的支持下，PyDeequ可以帮助用户监控数据湖中的数据质量。
数据仓库：在数据仓库中，PyDeequ可以用于定期检测数据质量，防止数据质量问题影响业务决策。
实时数据处理：在实时数据处理系统中，PyDeequ可以用于实时监控数据流的质量。

一、AWS EMR 集群配置 PyDeequ 的具体步骤

1. 创建 Bootstrap Script (引导脚本)

PyDeequ 依赖 Java 库和 Python 包，需在 EMR 集群初始化时自动安装。

#!/bin/bash
# bootstrap.sh

# 安装 Python 依赖
sudo pip3 install pydeequ

# 下载 Deequ JAR 包到 Spark 类路径
aws s3 cp s3://deequ/jars/deequ-2.0.3-spark-3.1.jar /usr/lib/spark/jars/

2. 启动 EMR 集群时指定 Bootstrap 动作

通过 AWS CLI 或控制台启动集群时添加以下参数：

aws emr create-cluster \
--name "PyDeequ_Cluster" \
--release-label emr-6.9.0 \
--applications Name=Spark Name=Hadoop \
--instance-type m5.xlarge \
--instance-count 3 \
--bootstrap-actions Path="s3://your-bucket/bootstrap.sh" \
--use-default-roles

3. 关键验证点

确保 JAR 文件路径正确：/usr/lib/spark/jars/deequ-*.jar
Python 环境需为 3.x，可通过 EMR 配置 emr-release-label >= 6.0

二、PyDeequ 数据质量检查核心代码示例

1. 初始化 SparkSession

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("PyDeequ-Data-Quality") \
    .config(