数据治理和数据湖、数据中台、云类似,属于概念性的东西。
其实网络上有很多数据治理的文章,千人千面,每个人都有自己的理解,很难有一个人能够把这个东西讲好、讲透彻、讲的大家都懂。
网上大多人都会提到:元数据、数据标准、数据质量、数据集成、数据资产、数据交换、生命周期、数据安全等组成的一个概念,这整套东西涉及到:网管、运行保障部、IT部门、开发人员、业务部门,其难度可想而知
通过数据治理类的项目,最终想要达到的目的是通过数据资产化,提高数据的变现能力
但是在最终实现起来,受限于:各业务系统、人员质量、项目目标、管理方式、行业等,最终实施的计划具有较大差异
个人理解数据治理,并不是单纯数据有问题需要治理,简而言之:就是数据整合,分析以及挖掘,数据治理讲的是过程,而不是结果。
数据治理的几个关键点如下:
数据整合
数据集成
将不同数据源的数据加载到数据湖(关系型数据/非关系型),防止数据割裂,保证数据完整性。
以保险行业为例:核心系统、客户管理系统、营销系统都是相对独立、分别搭建的。
由于系统的独立,无法根据全局的角度进行规划和设计
数据质量
简而言之就是:留下有用的数据。排除:过时的、垃圾的、孤立的数据
有部分代理人处于自身业绩压力或者客户出于隐私不愿告知保险公司,录入的数据不够真实甚至虚假
此类数据将严重影响后续数据分析和挖掘的准确性
数据标准
表结构、字段、数据类型、按照统一标准
表单数据按照统一格式进行填填充
实现:界面统一、业务标准统一、数据标准统一
元数据、主数据、业务数据管理
每个系统都有自己的元数据、按照统一标准规范落地管理
在这个数据治理过程中,每一份元数据只有一份
打通血缘关系
由于系统相对割裂,针对于客户营销和代理人展业无法提供有效的支持信息。
通过打通数据血缘关系,某种程度的上说可以保证数据的完整性,为营销展业提供支持
数据分析
利用用现有存量数据,根据现有标准口径按照不同维度将数据进行分析也预测
在这个点上业务是主导,其实数据分析就是出报告或者报表,根据业务需求制定数据要求,IT根据规则将数据计算出来。
包括某些具备一定预测类的数据,也是需要业务根据历史数据的来指定预测算法
数据挖掘
同样通过现有存量数据,计算出有价值的、隐藏的、未知的数据。
其重点在于挖掘,在数据中发现。
在这个点上IT是主导,可以通过技术反哺业务,来支持业务做拓展
以保险行业为例:
- 可以通过地址、性别、年龄、产品、保费、职业等客户群体进行交叉对比,用来寻早某一个区域的潜在客户
- 可以通过客户购买的险种、家庭成员、职业、资产等客户群体进行数据分析,用来交叉销售的不同产品和增值服务