神策数据王灼洲:如何进行有效的数据治理,提升数据价值?

在数据应用过程中,数据采集和数据治理是两大核心抓手。本文继《方法论 + 实践,全面解析数据采集方案》之后,作者王灼洲通过两大挑战、三大原则详细阐述了对于企业数据治理的思考。(文末附 PPT 下载地址)主要内容如下:

  • 数据治理的定义和重要性

  • 数据治理面临的两大挑战

  • 数据治理的三大原则

一、数据治理的定义和重要性

在讨论数据治理之前,我们需要对于数据治理下一个明确的定义,数据治理到底包括了哪些范畴。从我们的视角来讲,数据治理,是指“组织对数据的可用性、完整性和安全性的整体管理”。

  • 数据的可用性,是指数据本身是可用的、可信的和质量有保证的,不会因为本身的数据质量给后续的数据应用带来问题;

  • 数据的完整性,是指我们收集的数据本身是完整的,能够覆盖各类数据应用的需要,不会因为缺少了对某些数据的采集,而带来了数据资产的流失;

  • 数据的安全性,则是指数据治理和分享的过程是安全可控的,这个过程不会侵犯用户隐私,不会给组织本身留下安全隐患。

数据治理的核心,就是帮助我们可以更早、更及时、更高效的发现埋点问题和数据问题,确保后续数据应用的正确性和价值传递。

因此,数据治理的重要性,是毋庸置疑的,它是所有数据应用的基础和根基,它的好坏直接影响数据应用过程中的价值体现。同时,数据治理也是一个组织进行数据资产沉淀的基础,直接决定一个组织的数据资产能否得到有效的沉淀,以及在数据应用过程中能否充分地发挥数据价值。

二、数据治理面临的两大挑战

在进行数据治理的过程中,通常会面临两大类挑战。

第一类挑战,是由于客观的技术问题带来的。

技术方面带来的挑战,其实比较容易理解,业务越复杂,数据应用越多,需要采集的数据源就会越多,需要处理的数据问题也会越多,自然就会有更大的挑战。

具体来说,这些技术细节上的挑战包括:

  • 数据传输方面的挑战:比如数据如何通过公网进行可信传输;

  • 数据准确性方面的挑战:如何保证数据不重复、不丢失;

  • 时间同一性方面的挑战:客户端时间不准确时如何处理;

  • 兼容性方面的挑战:不同系统、不同设备之间的兼容性如何处理;

  • 性能影响方面的挑战:在数据采集的过程中,如何最大限度地减少对客户端性能和业务的影响;

  • 可测试性方面的挑战:如何在数据治理开发过程中方便地进行调试和自测。

除此之外,数据治理,或者说数据治理中的采集部分,还会面临用户隐私与安全方面的挑战,包括如何应对 GDPR 和工信部等法规的要求,如何在组织内部对敏感字段进行审核,如何进行数据在不同行、不同列上的权限控制,以及如何在传输和处理过程中对数据进行加密和解密。

戳图下载《Android 全埋点技术白皮书》

针对第一类挑战,我们建议可以使用统一的数据采集和数据导入工具,比如使用专业的数据采集 SDK,可以将多端数据采集工作进行统一化、专业化和标准化,最大限度地降低在数据采集或者导入的过程中,出现问题的各种可能性。

第二类挑战,是由于人或组织架构的问题带来的。

这些挑战主要体现在:关键角色权责不统一;多个部门之间配合不到位;数据治理各个相关角色缺乏共同语言;不同角色的付出与收益脱节;谁来对数据的质量负责等。

要想彻底解决这些挑战是非常难的,这是一个漫长的过程。不过,我们也可以使用一定的技术手段来缓解这些问题。比如,我们可以使用统一的数据模型,像神策的 Event-User-Item 模型,可以在一定程度上解决各个组织架构和部门缺乏共同语言的问题,同时也能缓解跨部门、跨业务带来的一些挑战。

数据治理横跨多个环节,是一场“持久战”,并不是一蹴而就的事情,它需要我们不断地投入时间和精力,同时也是一个极易出错的过程。因此,在数据治理的各个环节,需要有专业的人员进行咨询、支持、协助和统筹,比如像神策数据的专业分析师等角色,他们是数据治理的专业人员,可以在一定程度上协助客户解决问题。

三、数据治理的原则

结合过去五年累计服务 1500+ 家企业客户的经验,我们总结了数据治理的三大原则:

1.不要先污染后治理,而是应该从源头控制

这个原则比较好理解,就像人生病了去医院一样,一般都是因为已经“生病了”才会选择去医院,这个时候不管采用何种治疗方案,都会对我们的身体有一定的伤害,即使康复了,也有可能留下后遗症。因此,我们平时更应该多看“保健医生”,确保我们尽量不要生病,即便无法完全规避,最起码也可以及时发现异常,通过适当的锻炼增强体质。

一旦数据被污染了,发现、制定方案和清洗均是一个漫长的过程,最终还不一定能达到我们的预期。比如,数据的治理需要伴随 App 发版,但即使我们新版本发出去了,用户也不一定会升级,从而导致部分数据一直被污染。 

如果借助数据治理产品,比如神策的 SDG,就可以在数据接入或者数据校验阶段,在产品系统内通过对上报数据的字段设置一定的校验规则,当有数据导入并且校验未通过时,就会在质量看版中进行报警和展示,埋点研发/分析师便可以集中定位/查看/反馈埋点问题。

字段规则如下:

  • 设置字段为必要字段,则该字段不能为空值或者不上报;

  • 枚举校验,可以设置字段的枚举值内容;

  • 正则表达式校验,可以设置字段满足的正则表达式;

  • 区间校验,可以针对数值类型字段设置其数值区间;

  • 等值校验,可以设置该字段的值为特定值,可以理解为只有一个值的特殊枚举。

因此,对于数据治理,不要先污染后治理,而是应该从源头控制。

2.数据治理的过程要贯穿到整个业务迭代的过程中

在我们刚开始进行数据治理时,通常情况下,由于内部的重视,能够在数据治理方面取得较好的成果。但随着业务的持续迭代,数据应用的需求以及系统本身也在不断发生变化,数据治理也需要随之进行不断地更新与调整。在这个阶段,由于对数据治理的重视程度下降、组织架构以及人员变更、流程不稳定、不全面等因素,数据治理的结果一般很难保持在一个较高的基线,反而会越来越差,直至无法满足最终的数据应用需求。

以在线推荐系统为例,如果用于给机器学习训练的 Item 数据流、曝光和点击事件导入有延迟、故障,会直接影响在线服务,比如出现刷不出新条⽬推荐系统 fail 的情况。

数据治理相关的产品,一般都会提供支持自主设置规则的监控能力,比如连续 3 ⼩时每个 Item 数据流上报量⼩于 100 条,当上报量在设置的时间范围内不满足预期时,会自动上报到报警平台并展示。

因此,数据治理的过程要贯穿到整个业务迭代的过程中,业务发生了变更,组织架构发生了变更,数据治理方案和流程也应该随着进行变更。

3.以产品化、组件化的思路来解决,不能只依赖于人工

神策数据提供了标准的数据采集 SDK,将匿名 ID 生成、基础属性采集、数据打包压缩加密、本地缓存、网络传输、时间校准、远程控制等通用功能,都进行了产品化与标准化处理。除此之外,还可以将数据治理过程中通用需求和通用治理方案,以产品化的方式进行沉淀。

数据治理,我把它理解为“纪检委”的角色,不能只依靠发现问题之后去处理,更应有前瞻意识,时刻保持监督与检查;因为没有完美的方案满足业务发展过程中遇到的所有问题,所以我们唯一能做的是根据业务发展和产品迭代状况,及时调整数据治理的规则。

戳图了解《iOS 全埋点解决方案》

作者介绍

王灼洲先生是《Android 全埋点解决方案》《iOS 全埋点解决方案》作者,神策数据治理研发部负责人。有 10+ 年 Android & iOS 相关开发经验,是国内第一批从事 Android 研发工作,开发和维护国内第一个商用的开源 Android & iOS 数据埋点 SDK。

王灼洲先生曾就职于北京天宇朗通通信设备股份有限公司,担任 Android 系统工程师。毕业于北京理工大学,软件工程专业。

✎✎✎

【相关阅读】

▼ 点击“阅读原文”,下载演讲 PPT

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值