为什么要在业务系统中引入大宽表？_ads 是大宽表，大数据开发中高级面试必知必会

最新推荐文章于 2024-05-16 21:51:17 发布

文景中辉

最新推荐文章于 2024-05-16 21:51:17 发布

阅读量561

点赞数 19

分类专栏： 2024年程序员学习文章标签：大数据面试职场和发展

本文链接：https://blog.csdn.net/2301_77054033/article/details/137894729

版权

2024年程序员学习专栏收录该内容

68 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

将数据从多种不同的业务系统提取，并进行整理后，产生以适应多维度分析的数据结构和格式，是数据仓库这个关键性系统的重要任务之一。

我两度经手管理跟大数据有关的团队，都会看到一个经典的结构图，关于数据仓库的一般性架构的：

经典数仓数据类型架构图

每次我看到图的时候都是一头雾水的：

ODS（Operational Data Store）原始数据，业务库表
DWD（Data Warehouse Detail）原始数据经过清洗
DWS（Data Warehouse Summary）大宽表
DM（Data Market/ Marts）数据集市
ADS（Application Data Service）应用数据服务

我根本不知道什么意思。括号里写的一些缩写，也只是我网上随便找的，未必就是精确的，至少每个大数据开发，架构师都一套振振有词，虽然他们也未必能说清楚缩写的真实含义。

回来，不管数据仓库到底是什么意思，但是都透露出一个基本的思想，就是业务数据需要经过整理和规范化处理，然后，形成按照特定主题聚合的“成品”数据，方便分析应用更好的使用。

2. 无奈的选择

如果你所在的公司，有一个建制完善的大数据开发团队和对应的数据分析团队，那么恭喜你，你可以从这类的任务中摆脱出来，专注于业务逻辑的开发。否则，应对各种各样的报表需求，也是你不得不接受的任务。

大数据的架构看似美好，但是就跟 OSI 的网络七层模型一样，这是理论中完美，在实操过程中，要应对各式各样的挑战。这也就是我在文章开头说的，即便对于专业的大数据开发团队来说，实现数仓的架构既不是轻松的，也不是高效的。

不过，我在实际业务执行过程中体会到，数据仓库的思想是非常先进的，也有很多的可取之处。比如，根据一个用户的 ID，就可以提取到有关此用户单个人的所有统计信息，然今后再进行简单的聚合，就可以计算出各种想要的分析维度，这难道不美好么？与之相对的，你可能要在系统里联表七八张，然后用复杂的过滤条件，再用复杂的 Group By，最后得到的数据，还需要在代码层再次进行运算，才能得到结果。

数据仓库的数据分层清洗汇总的思想，将很多复杂的运算，在计算层次上进行了抽象和分离，最终实现了计算和统计分离，是一种高效的解耦思想。

我们的所有统计分析在一条复杂 SQL 中出来，这种反倒是将所有东西杂糅在一段代码里进行处理，一个是不方便复用（只能拷贝过去改改），另一个就是不方便调试（很难阅读，也很难比较）。

但是我们又没有足够的人力去把整个数据仓库做出来，形成一个四层结构的 DW。那么这时候，大宽表，就是我们妥协后的一个很好选择，也会成为未来数据仓库构建的一个良好基础。

二、如何设计大宽表

大宽表，实质上，就是一个结构复杂的业务数据表集合，根据单一 key 在二维上一种展开格式。举个例子，用户大宽表，包含 ID，姓名，账号，注册日期，订单数，消费次数，消费总金额，消费平均间隔，消费最高的五个品类，消费的价格区间，等等等各种简单但并不平凡的字段构成。

有了这张宽表，我们可以分析用户的消费能力，消费习惯，活跃程度，流失概率等等各种报表。

1. 归纳法

你的团队应对单个分析需求的时候，往往不会想到要去做个大宽表，因为单个分析需求来的时候，业务往往刚刚起量，我们不可能遇见未来的发展趋势，一般都是直接帮需求方实现了。

但是当类似的需求越来越多的时候，就要警醒，可能业务已经进入腾飞的态势，未来此类分析会越来越多，越来越频繁，而我们需要提供精度越来越高的数据。

这时候，将已经收到并实现过的统计分析需求，进行汇总观察，提炼一个主要的分析 key，并形成宽表设计，就是一个明智的选择。这种方法，我称为归纳法。

2. 字段遴选

哪些字段进入大宽表，哪些不要，这是一个艰难的选择题，我们业务团队自行研发宽表，本来就是一个不得已的选择，意味着我们开发的资源非常有限。不可能无限实现各种字段。

那些明显能够支撑统计需求的字段，必然纳入我们的选择，哪怕是冗余的。这些统计字段都会降低后期分析报表出具的难度。但是有些变化不那么频繁的字段，也可以继续保留主键，而不对值进行展开，这就意味着后期分析的时候，仍然需要联表查询，在数据仓库中，这种往往叫维度表，但是哪些字段可以作为维度表，并不是表面上那么明显，经常是艰难的抉择，这就需要长期业务开发积累的经验。

三、缺点和困难

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

文景中辉

关注

19
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
为什么要在业务系统中引入大宽表？_ads 是大宽表，大数据开发中高级面试必知必会

不过，我在实际业务执行过程中体会到，数据仓库的思想是非常先进的，也有很多的可取之处。但是有些变化不那么频繁的字段，也可以继续保留主键，而不对值进行展开，这就意味着后期分析的时候，仍然需要联表查询，在数据仓库中，这种往往叫维度表，但是哪些字段可以作为维度表，并不是表面上那么明显，经常是艰难的抉择，这就需要长期业务开发积累的经验。举个例子，用户大宽表，包含 ID，姓名，账号，注册日期，订单数，消费次数，消费总金额，消费平均间隔，消费最高的五个品类，消费的价格区间，等等等各种简单但并不平凡的字段构成。
复制链接

扫一扫