本文将为您介绍数据仓库研发规范的阶段规划、角色职责和整体流程。
在大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会降低研发效率,增加成本与风险。
总而言之,数据资产管理实际上是对物的管理,而研发流程规范管理则是对人的行为的管理。只有落实了作为基础的后者,才能进一步实行数据资产管理方法论。
数据仓库研发规范旨在为广大数据研发者、管理者提供规范化的研发流程指导方法,目的是简化、规范日常工作流程,提高工作效率,减少无效与冗余工作,赋能企业、政府更强大的数据掌控力来应对海量增长的业务数据,从而释放更多人力与财力专注于业务创新。
阶段规划
鉴于对日常数据仓库研发工作的总结与归纳,本文将数据仓库研发流程抽象为如下几点:
- 需求阶段:数据产品经理应如何应对不断变化的业务需求。
- 设计阶段:数据产品经理、数据开发者应如何综合性能、成本、效率、质量等因素,更好地组织与存储数据。
- 开发阶段:数据研发者如何高效、规范地进行编码工作。
- 测试阶段:测试人员应如何准确地暴露代码问题与项目风险,提升产出质量。
- 发布阶段:如何将具备发布条件的程序平稳地发布到线上稳定产出。
- 运维阶段:运维人员应如何保障数据产出的时效性和稳定性。
角色职责
- 数据产品经理:负责承接、评估业务方提出的数据需求,并组织需求评审、产出产品需求文档,同时需要把控其它更为细化的技术评审。
- 设计人员:根据已定稿的产品需求文档所述需求,进行数据探查,了解数据形态(数据质量、数据分布),同时根据探查结果实现表设计、Mapping设计、调度设计等细分设计工作。
- 开发人员:根据设计人员产出的稿件,制定计划并实现代码,同时进行单元测试与代码评审。
- 测试人员:负责验证需求与结果的一致性,发现代码问题与项目风险。
- 运维人员:负责发布任务,并处理数据、程序、调度、监控告警等异常事件,保障数据产出时效、程序高效运行和生产稳定性。
- 信息安全与合规人员:在需求评审前期,负责需求实现的安全性与合规性。
数据仓库研发规范整体流程
下图为根据阶段规划与角色职责的内容,整理出的数据仓库研发规范的整体流程。

需求阶段
数仓的最基本职责是定义和发现在企业决策中使用的信息,随着企业战略方向的改变与业务方对行业判断的变化,需求会不断变化。该特性决定了数据仓库需求的多样性和迭代性。
作为承接业务方数据需求的数据产品经理,在需求阶段需要规范首次需求流程和迭代需求流程。
首次需求流程
对于业务方首次提出的需求,重点工作在于评估完成该需求的技术、数据、合规的可行性后,以细化需求的方式完成产品需求文档,并组织需求评审会议多方共同敲定需求最终实现方案。

首次需求流程包括以下步骤:
- 提出需求
- 外部沟通:数据产品经理主导,负责与外部门业务方充分沟通。力求获取并理解业务场景(背景)、目标和实现价值。
说明
此处不必与业务方讨论需求实现的途径或细节,双方只了解需要达到什么目标,而不讨论如何实现。
- 完成产品需求文档的初稿:得到充分信息后,按照数据仓库需求模板中的常规需求申请单,将需求转化为产品需求文档的初稿。
- 外部沟通:数据产品经理主导,负责与外部门业务方充分沟通。力求获取并理解业务场景(背景)、目标和实现价值。
- 分析需求
- 可行性分析:数据产品经理主导,邀请设计、数据安全与合规人员,对需求进行评估。
- 需求合理性:评估该需求的合理性。
- 数据可行性:评估当前已有数据能否支撑需求开发,如果缺少数据,则需要另行规划缺失数据的抽取方案。
同时建议进行深入的数据探查,包括但不限于数据完整性、字段离散值分布情况、空值、零值、重复值占比等情况。
- 技术可行性:评估当前已有数据模型能否支撑需求开发,如果不能,则需要规划模型改造方案,并充分评估其影响。同时在测试环境进行模型测试。
说明
如果涉及资损、精确对账或其他关键模型的改造,测试人员必须进行测试。
- 是否满足安全与合规要求:根据企业自身数据安全的要求,严格控制数据内部流向,划分研发过程中数据可流入的库、项目、表、字段等。对于流出外部的数据,更需要严格评估流出数据内容、流出目的地是否符合公司数据安全的要求。
说明
此项评估是不可跳过的步骤。
- 实现细节分析:数据产品经理主导,对实现需求的细节关键点进行确认,包括但不限于数据口径、接口格式、供数频率和需求优先级。
- 完善产品需求文档:完善产品需求文档的初稿。
- 可行性分析:数据产品经理主导,邀请设计、数据安全与合规人员,对需求进行评估。
- 评审需求
数据产品经理主导,邀请设计人员、测试人员发起需求评审会。会议内容主要包括:

最低0.47元/天 解锁文章
1215

被折叠的 条评论
为什么被折叠?



