我在蚂蚁金服做数据治理

0245d7ba1736cb8d971935b556b554bf.jpeg

编辑 | 李忠良

嘉宾 | 康树鹏

企业在数据治理过程中会遇到各种难题,如数据规模大,加工复杂、风险相关数据对抗时效要求高等。在数据的使用过程中又会浮现复用难、重复建设多,以及数据剧增等情况,因而导致整体成本增长过快、数据管理难、安全生产突出…面对这些问题,蚂蚁大安全也在不断尝试,寻找适合蚂蚁大安全的数据治理方案和架构。

目前蚂蚁大安全基于元数据体系建设及相关技术探索,在数据治理方面取得了一些收益和成效。InfoQ 采访了蚂蚁集团大安全大数据技术团队数据架构及治理负责人康树鹏,他就上述内容进行了分享,希望对你有所启发。

与此同时,康树鹏也会在 7 月 16 日深圳 ArchSummit 全球架构师峰会上分享更详细的内容,欢迎关注。

InfoQ:在数据治理过程中,蚂蚁集团主要存在哪些问题?

康树鹏:在我看来,蚂蚁大安全的数据治理过程中,从成本治理角度,主要存在以下几个问题,1、数据研发人员多,对成本及数据治理认知不一;2、蚂蚁经过多年业务发展,数据复杂性极高;3、数据治理过程中,需要解决数据孤岛等问题;4、数据治理底层基础设施需不断完善。

InfoQ:与电商类或其他业务类相比,金融类的数据治理,有没有本质上的区别?

康树鹏:金融类的数据治理与电商及其他业务相比,在治理方法和工具能力上是有很多共同点的,但金融类业务对数据的一致性、可用性、完整性及合规性提出了更高要求,一方面,金融业务强调防范金融风险,治理过程要严格保障不对风险识别、防范能力及系统产生影响;另外一方面,金融数据(比如交易流水)保存时间有严格的法律要求,不能简单治理或清理。

InfoQ:蚂蚁集团大安全,数据治理是从什么时候开始的?如果将治理过程分阶段,您会如何划分?为什么?

康树鹏:蚂蚁大安全的数据治理一直都在做,如果分阶段的话,从我的角度可以分为三个阶段:第一阶段,分散式、运动式的治理,治理由各个业务线的数据团队分别负责;第二阶段,集中式、综合式的治理,我们启动了数据治理专项计划,形成数据治理专项小组统一了大安全的数据架构标准。在治理过程中结合资产模型重构,对安全数据进行了整体的盘点和治理,提升了大安全数据整体的使用效率和架构水位;第三阶段,常态化、体系化的治理,将治理融入到日常的研发和工作当中,做成常态化及体系化的治理。下一阶段,治理需要向智能化方向推进,同时数据作为新的生产要素,需要在市场化方向进行尝试和探索。

InfoQ:您负责了蚂蚁大安全的数据治理,在您看来,想要进行数据治理,应该包括哪几个方面?

康树鹏:数据治理一般包含以下四个方向:1、 数据架构方面的治理,数据技术标准规范层面;2、数据安全方面的治理,数据隐私、合规、共享等方面 ; 3、数据质量方面的治理,数据内容一致性、产出时效等方面;4、数据成本方面的治理,存储、计算、运维等方面。

InfoQ:数据质量应该是治理的重中之重,例如多产品指标逻辑不同、数据一致性等问题,蚂蚁大安全是如何解决这些问题的?

康树鹏:蚂蚁大安全为上亿用户,每日千万笔交易提供实时的风险防控,数据质量关乎着风险防控的水位。为了保障数据质量,首先在研发阶段,我们有研发规范及变更管控能力,确保变更都是经过测试和验证的;在生产阶段,有相应的质量检查规则,在数据生成后进行业务规则校验:当数据在业务策略生效后,业务系统也会针对业务指标进行监控,当有异常时可以进行快速的止血和回滚,保障业务稳定;在离线数据研发阶段,我们会有资产判重的能力,当有相似逻辑发布上线,会进行发布管控拦截;在核心底层资产建设过程中,会利用资产平台的指标管理能力,确保指标不重、不错、好用。

InfoQ:许多公司越来越重视数据成本上的治理,蚂蚁大安全的思路是什么?

康树鹏:数据成本主要来源于存储、计算、运维等,目前重点治理对象为存储和计算,大安全的治理思路主要从以下几个方面入手。

  • 首先是成本及治理意识的提升,针对现状进行盘点,并对核心团队及用户进行宣导和合作,确保治理目标一致;

  • 存量治理,通过专项方式进行攻坚,保障整体的 ROI;

  • 增量部分,确保工具化管控能力落地,保障数据的合理新增;

  • 产品能力方面,通过构建整体的数字化治理体系,保障常态化治理的推进

  • 资产治理和建设相结合,大安全从前两年开始推进《精品资产》建设项目,旨在通过提升优质资产的厚度和复用度,提升整体的研发效率,降低烟囱,保障业务可持续的健康发展。

InfoQ:关于元数据中心建设方面,蚂蚁利用元数据在数据治理上有哪些比较创新的探索?

康树鹏:元数据是数据治理的关键基础设施,在治理识别、决策、管控、效果分析等过程中提供底层数据支撑;例如以元数据血缘来说,蚂蚁构建了更精细化的血缘数据,从任务血缘、表级血缘、字段血缘、以及业务应用侧血缘。同时蚂蚁使用数据应用末端场景注册这种创新的方式,将业务场景、血缘数据及在线系统结合起来,形成一个业务场景切面,在链路影响分析、重点业务保障、节点分层打标等方面都有很好帮助。

InfoQ:对于中小公司来说,您认为可以借鉴的治理路径有哪些?或者说您踩过的坑点,是否有可以分享给大家的?

康树鹏:在我看来,一个公司是否启动数据治理,需要理清公司当前的数据现状,定义出数据方面的关键问题,是成本问题、数据质量问题还是数据效率问题,根据关键问题进行入手;假如一个公司要进行数据成本治理,需要考虑下 ROI,特别是研发成本;同时需要同公司领导层达成共识,要给予数据治理大力支持,保障数据治理战略的落地和执行,从人员意识层面要进行宣导,达成治理共识;

其次,需要尽可能地将各个业务环节数字化,建立一套元数据体系,通过数字化的方式发现问题并制定合理的治理目标,前期可以通过专项式的治理,快速达成治理目标;最后,需要将治理过程中能够标准化、工具化、自动化的流程沉淀下来,落地到系统当中,做成常态化治理方案,持续推进治理。以上,是我推荐的一个治理路径。

坑点分享:治理需要做成常态化,之前启动过数据治理专项,发现当时达到了治理目标,但是几个月过后,数据成本等问题又出现了,其实这个过程只是做到了治标,但是没有治本,我们要分析数据问题的根因,是资产建设不足、数据管控力度不够还是治理意识不足?治理是一个持续性的过程,治理经验需要有工具化平台将治理能力落地成常态化机制。

嘉宾介绍:

康树鹏,现任蚂蚁集团大安全大数据技术团队数据架构及治理负责人。在数据研发、数据架构及治理领域深耕多年,曾作为离线数据服务能力建设负责人,深度参与蚂蚁集团特征服务平台产品建设项目。主导大安全数据治理项目,安全数据架构升级及数据治理项目等。关注大数据研发、数据架构、数据治理等领域。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、基础框架:基础框架里面有什么东西,为什么有他,比如说多环境适配,因为我们整套数据平台的解决方案是对外输出的,有公有云环境,有专有云环境,这些环境底下的基础设施都不一样,比如说包括租户和账户体系,权限体系,流程体系,审批流这类东西,所以正是通过基础框架搭我们底层的环境。最主要目的其实是提供一些我们上层数据应用的通用能力以及把底层的数据环境的差异给屏蔽掉。 2、核心能力: ① 数据安全:数据安全就会涉及到数据资产的分类、分级。不同类别的资产,他的安全等级是不一样的,他在安全里面需要有权限的话,他的审批策略是不一样的,这是数据安全这一块,可能还涉及一些比如脱敏,我们消费端接触到这些数据怎么脱敏; ② 隐私保护:隐私保护更偏重,比如说隐私保护还有一个叫法是数据安全、数据合规,我们想要什么事情,就是我们要去透明化的看到各个公司数据流通,比如有哪些数据,这些数据的安全等级是什么样的,涉及到用户哪些数据; ③ 数据质量:主要是在我们数据研发过程当中,数据周期从发布到线上调度,调度完了怎么去数据质量的监测,检测完了以后,比如说我们离线调度的时候最重要的一个就是数据产出时效,所以有一个基线。这都是怎么去保障我们任务的基线; ④ 元数据中心:元数据中心大家都知道,因为我们下面有各种各样不同的引擎,有Spark,有ODPS,有MySQL这些东西,怎么去把它当中的数据统一的元数据中心; ⑤ 数据治理数据治理的逻辑就是配合数据质量把我们现有的数据给盘清楚。 3、数据引擎 ① 任务执行与调度引擎:我们在ETL的时候大多数都是这种任务执行与调度; ② 数据科学引擎:数据科学引擎主要是分析,业务洞察这一类,今天的数据业务平台可能更多的就是依赖于数据科学引擎,后面会详细介绍; ③ 决策服务引擎:决策引擎比如说给大家举一个场景,芝麻分大家都知道,那首先假如我有一个业务在线上,在线上策略的时候,或者给大家看不同的页面的时候,不同的芝麻分的等级看到的页面或者等级是不一样的,这种东西是需要数据决策的,或者直白的来说,是需要这个人的芝麻分,这个通过统计数据服务会去配一个决策规则,相当于这里的决策引擎里面支持一种决策的DSL配置,简单来讲就是if……else……,if…else……,能够配置这样一套规则后,给在线业务场景提供服务,这是决策服务引擎。整个数据内核就这么多东西。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值