数据仓库分层架构详解：ODS、DWD、DWS、ADS层及其实现工具

lingding_cn

已于 2025-04-29 14:54:52 修改

阅读量2k

点赞数 23

CC 4.0 BY-SA版权

分类专栏：数据仓库 ods dwd 文章标签：数据仓库架构 dws ods

于 2025-04-29 14:50:45 首次发布

本文链接：https://blog.csdn.net/lingding_cn/article/details/147611896

数据仓库同时被 3 个专栏收录

1 篇文章

订阅专栏

ods

1 篇文章

订阅专栏

dwd

1 篇文章

订阅专栏

数据仓库分层架构详解：ODS、DWD、DWS、ADS层及其实现工具

1. 数据仓库简介

数据仓库（Data Warehouse，DW）是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。与传统的业务数据库不同，数据仓库主要用于数据分析和决策支持，而非日常事务处理。

数据仓库的核心价值在于：

整合企业各系统数据，提供统一的数据视图
存储历史数据，支持时间序列分析
提供强大的分析能力，支持复杂的数据挖掘和报表生成
分离分析环境与业务系统，避免分析任务对业务系统的影响

为了更好地组织和管理数据，现代数据仓库通常采用分层架构，常见的分层包括ODS、DWD、DWS和ADS四层。这种分层设计既可以提高数据处理效率，又能保证数据质量和一致性。

2. 数据仓库分层详解

2.1 ODS层（Operational Data Store，操作型数据存储层）

ODS层是数据仓库的数据准备区，也是数据仓库的数据缓冲层。其主要职责是将来自不同源系统的原始数据进行简单清洗后存储，保持数据的原貌，为后续的数据加工提供基础。

主要特点：

存储原始数据，保留数据的历史面貌
数据格式与源系统保持一致
数据未经过太多处理，仅做必要的清洗
通常按照数据源进行物理划分

示例代码（Hive建表）：

CREATE EXTERNAL TABLE ods_user_info (
    user_id STRING COMMENT '用户ID',
    username STRING COMMENT '用户名',
    gender STRING COMMENT '性别',
    age INT COMMENT '年龄',
    register_time STRING COMMENT '注册时间',
    update_time STRING COMMENT '更新时间'
) COMMENT '用户信息表'
PARTITIONED BY (dt STRING COMMENT '日期分区')
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS ORC
LOCATION '/warehouse/gmall/ods/ods_user_info';

2.2 DWD层（Data Warehouse Detail，数据仓库明细层）

DWD层是在ODS层基础上，对数据进行清洗转换，并按照业务过程进行划分的明细层。在这一层，数据开始具有业务含义，并且经过了数据质量保障处理。

主要特点：

基于业务过程而非数据源组织数据
进行了维度建模，通常采用星型模型或雪花模型
数据经过了清洗和标准化处理
保留明细粒度，不做聚合

示例代码（数据清洗和转换）：

-- 从ODS层加载数据并进行清洗转换后加载到DWD层
INSERT OVERWRITE TABLE dwd_user_info PARTITION(dt='2023-06-01')
SELECT
    user_id,
    username,
    CASE gender 
        WHEN 'M' THEN '男' 
        WHEN 'F' THEN '女' 
        ELSE '未知' 
    END as gender,
    age,
    TO_DATE(register_time) as register_date,
    current_timestamp() as etl_time
FROM ods_user_info
WHERE dt='2023-06-01'
AND user_id IS NOT NULL;

2.3 DWS层（Data Warehouse Service，数据仓库服务层）

DWS层基于DWD层进行轻度汇总，形成主题宽表。这一层主要面向业务主题进行聚合，通常包含特定时间周期（如天、周、月）的汇总数据。

主要特点：

面向主题而非业务过程
数据经过轻度聚合，粒度通常为天、周、月等
多维度组合，形成宽表
支持大部分常规分析需求

示例代码（主题宽表构建）：

-- 构建用户主题日汇总表
INSERT OVERWRITE TABLE dws_user_stats_day PARTITION(dt='2023-06-01')
SELECT
    user_id,
    MAX(username) as username,
    MAX(gender) as gender,
    MAX(age) as age,
    COUNT(DISTINCT order_id) as order_count,
    SUM(order_amount) as total_amount,
    AVG(order_amount) as avg_amount
FROM dwd_order_detail
WHERE dt='2023-06-01'
GROUP BY user_id;

2.4 ADS层（Application Data Store，应用数据服务层）

ADS层是数据仓库的输出层，直接面向业务应用和分析需求，提供各类报表、仪表盘和分析指标数据。

主要特点：

直接面向业务应用和分析师
高度聚合的指标和统计数据
通常包含预计算的KPI指标
可能存储到OLAP引擎或关系型数据库中，便于快速查询

示例代码（构建销售分析报表）：

-- 构建销售分析报表
CREATE TABLE ads_sales_report AS
SELECT
    dt,
    region_name,
    COUNT(DISTINCT user_id) AS user_count,
    COUNT(order_id) AS order_count,
    SUM(order_amount) AS total_sales,
    SUM(order_amount) / COUNT(order_id) AS avg_order_value,
    SUM(CASE WHEN is_new_user = 'Y' THEN order_amount ELSE 0 END) AS new_user_sales
FROM dws_sales_stats_day
WHERE dt BETWEEN '2023-06-01' AND '2023-06-30'
GROUP BY dt, region_name
ORDER BY dt, total_sales DESC;

3. 各层常见实现工具和中间件

3.1 数据采集和集成工具

ODS层常用工具：

Apache Sqoop: 用于在HDFS与关系型数据库之间高效传输数据
Apache Flume: 用于收集、聚合和移动大量日志数据
Kafka: 分布式流处理平台，用于实时数据管道和流式应用程序
Logstash: 开源的服务器端数据处理管道，能同时从多个来源采集数据
DataX/DolphinScheduler: 阿里开源的异构数据源离线同步工具

// Sqoop导入数据示例
public class SqoopImportExample {
    public static void main(String[] args) {
        String command = "sqoop import " +
                         "--connect jdbc:mysql://db-server:3306/source_db " +
                         "--username user --password pass " +
                         "--table user_info " +
                         "--target-dir /warehouse/gmall/ods/ods_user_info " +
                         "--fields-terminated-by '\\t' " +
                         "--where \"update_time >= '2023-06-01'\" " +
                         "--m 4";
        
        try {
            Process process = Runtime.getRuntime().exec(command);
            // 处理执行结果...
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

3.2 数据存储和处理工具

DWD和DWS层常用工具：

Apache Hadoop: 分布式存储和计算框架
Apache Hive: 基于Hadoop的数据仓库工具，提供类SQL查询语言
Apache Spark: 统一的分析引擎，支持批处理和流处理
Apache Flink: 面向分布式数据流处理和批量数据处理的开源计算平台
Presto/Trino: 分布式SQL查询引擎，适用于交互式分析

# PySpark数据处理示例
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# 创建SparkSession
spark = SparkSession.builder \
    .appName("DWD Data Processing") \
    .enableHiveSupport() \
    .getOrCreate()

# 读取ODS层数据
ods_df = spark.sql("""
    SELECT * FROM ods_user_info
    WHERE dt = '2023-06-01'
""")

# 数据清洗和转换
dwd_df = ods_df.select(
    col("user_id"),
    col("username"),
    when(col("gender") == "M", "男")
    .when(col("gender") == "F", "女")
    .otherwise("未知").alias("gender"),
    col("age"),
    to_date(col("register_time")).alias("register_date"),
    current_timestamp().alias("etl_time")
).filter(col("user_id").isNotNull())

# 写入DWD层
dwd_df.write \
    .format("orc") \
    .mode("overwrite") \
    .partitionBy("register_date") \
    .saveAsTable("dwd_user_info")

3.3 OLAP分析工具

DWS和ADS层常用工具：

Apache Kylin: 极速的OLAP引擎，支持超大规模数据集上的亚秒级查询
ClickHouse: 面向列的OLAP数据库管理系统
Apache Doris: 百度开源的MPP架构的交互式SQL数据仓库
Druid: 实时分析型数据库，专为大型数据集上的高性能切片和切块设计

-- ClickHouse查询示例
SELECT 
    toYYYYMM(dt) AS month,
    region_name,
    SUM(order_amount) AS total_sales,
    COUNT(DISTINCT user_id) AS user_count,
    total_sales / user_count AS arpu
FROM ads_sales_report
WHERE dt BETWEEN '2023-01-01' AND '2023-06-30'
GROUP BY month, region_name
ORDER BY month, total_sales DESC
LIMIT 10;

3.4 数据可视化工具

ADS层常用工具：

Tableau: 强大的商业智能和数据可视化工具
PowerBI: 微软的商业分析服务
Superset: Apache开源的现代数据探索和可视化平台
Grafana: 开源的度量分析和可视化工具，常用于时序数据分析
QuickBI: 阿里云的自助式BI分析产品

3.5 数据治理和质量管理工具

跨层常用工具：

Apache Atlas: 元数据管理和数据治理框架
Apache Griffin: 大数据质量解决方案
Datahub: LinkedIn开源的元数据平台
Great Expectations: 数据验证和文档工具

# Great Expectations数据质量检查示例
import great_expectations as ge

# 加载数据
df = ge.read_csv("dwd_user_data.csv")

# 定义期望
expectation_suite = df.expect_column_values_to_not_be_null("user_id")
expectation_suite = expectation_suite.expect_column_values_to_be_between("age", 0, 120)
expectation_suite = expectation_suite.expect_column_values_to_match_regex("email", r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$')

# 验证数据
validation_result = df.validate(expectation_suite=expectation_suite)

# 输出验证结果
print(validation_result.success)