三、数据服务分类与建设规范
1、数据集服务
1)数据集服务定义:
数据集服务最主要的特征是由服务提供方提供相对完整的数据集合,消费方“访问”数据集合,并自行决定接下来的处理逻辑。如下图所示:
数据服务提供方被动地公开数据以供数据消费方检索。
数据服务提供方并不定义数据处理逻辑,但数据和数据处理逻辑仍然由其控制。
数据服务的生命周期即数据访问授权的有效期。
2)数据集服务建设规范:
数据集服务主要面向自助分析场景提供相对完整的数据集合,因此所提供的数据主要来自数据底座,包括“数据湖”和“主题联接”。
数据湖场景:
允许将数据湖的同一个业务对象内的一个或多个资产封装为数据服务。
允许将数据湖内单个资产及其关联主数据合并封装为数据服务。
不允许将数据湖中跨业务对象的多个资产合并封装为一个数据服务。
要注意数据服务合并封装的边界,数据服务的本质是将已有数据资产以服务的形式提供给消费者,而不是在服务中创建一个新的数据资产,面向OLAP的数据资产创建应该在数据主题联接完成,这在一定程度上也可以避免出现数据服务大量重复建设的情况。
主题联接场景:
允许将单个主题联接的数据资产封装为一个或多个数据服务。
允许将由多个主题联接数据资产组成的多维模型整体封装为一个数据服务。
不允许将多个主题联接数据资产直接合并封装为一个数据服务
2、数据API服务定义
1)数据API服务特征:
数据服务提供方基于随机的数据事件主动地传送数据。
数据服务提供方会基于事件定义数据处理逻辑,由消费方提前订阅并随机触发。
服务的生命周期跟着事件走,事件关闭了,服务就终止了。
2)数据API服务VS数据集成服务:
数据API服务与传统系统集成相比有非常明显的优势,如下图所示。
供应/消费数据服务:应用组件间传递的是基于数据服务契约的消息,即传递对数据进行逻辑操作的结果。
高聚合:订单服务使业务逻辑变得更加集中,易于数据同源管控。
松耦合:业务逻辑的变化对服务消费方没有直接影响。
【备注说明】数据集、API是企业内部数据服务的两种重要形式。数据集服务简单的可以理解为就是库表服务,以表服务的方式进行发布给数据消费者进行数据使用。上面反复在强调数据服务的形成方式和边界。其实就是在说,要注意数据服务的责任主体,必须保持一个数据服务只有一个责任主体,避免将多个责任主体的数据组成一个数据服务。因为这块涉及到数据服务的审批流程,如果涉及多个责任主体会涉及多个组织进行审批,会增加流程节点的不确定性。
四、打造数据供应的“三个1”
1、数据供应“三个1”整体目标
1天:对于已发布数据服务的场景,从需求提出到消费者通过服务获取数据,在1天内完成。
1周:对于已进底座但无数据服务的场景,从需求提出到数据服务设计落地、消费者通过服务获取数据,在1周内完成。
1月:对于已结构化但未进底座的场景,从需求提出到汇聚入湖、数据主题联接、数据服务设计落地、消费者通过服务获取数据,在1个月内完成。
2、实现数据服务供应SLA的关键要素
(1)组织职责的明确
·构建专业的评审及仲裁组织。
·承接各细分工作内容的角色职责。
(2)流程规范的制定与落实
·统一的工作细分流程。
·配合工作流程制定相应的管理规范,以指导开展工作。
·配合IT平台制定相应的管理规范,以指导开展工作。
(3)IT平台的建设
·度量、评价数据底座运营的效率和效益的具体指标。
·支撑组织职责、流程规范、度量指标落地的IT工具。
(4)面向需求方的效率承诺度量
对所有供应团队形成明确、清晰的工作要求。
【备注说明】SLA往往会成为压倒企业数据应用推广的最后一颗稻草,企业通过BI项目建设了一堆应用,把业务部门的数据分析应用需求都调动起来了,业务提了很多需求上来,但由于企业没有专门的数据应用开发团队,基于上依赖于供应商进行开发,所以每次有新的需求开发都要找供应商进行商务洽谈,耗费了大量的时间,完全超出了当初对于业务部门的承诺,导致业务部门的大量需求无法满足,让业务的积极性耗尽,最终导致数据应用无法在企业内有效推广。所以SLA的设置在企业内部必须根据自身企业的情况进行配置,企业也必须要考虑是否需要组织自己专门的数据开发团队。当前数据开发除了对SQL开发有高要求外,工具都是通过托、拉、拽实现的,难度不大,这块可以由自身团队承接。
五、构建以用户体验为核心的数据地图
1、数据地图的核心价值
数据供应者与消费者之间往往存在一种矛盾:供应者做了大量的数据治理工作、提供了大量的数据,但数据消费者却仍然不满意,他们始终认为在使用数据之前存在两个重大困难。
1)找数难
企业的数据分散存储在上千个数据库、上百万张物理表中,已纳入架构、经过质量、安全有效管理的数据资产也会超过上万个,并且还在持续增长中。例如,用户需要从发货数据里对设备保修和维保进行区分,以便为判断哪类设备已过保(无法继续服务)提供准确依据,但生成和关联的交易系统有几十个,用户不知道应该从哪里获取这类数据,也不清楚获取的数据是否正确。
2)读不懂
企业往往会面对数据库物理层和业务层脱离的现状,数据的最终消费用户无法直接读懂物理层数据,无法确认数据是否能满足需求,只能寻求IT人员支持,经过大量转换和人工校验,才最终确认可消费的数据,而熟悉物理层结构的IT人员,并不是数据的最终消费者。例如,当需要盘点研发内部要货情况的时候,就需要从供应链系统获取研发内部的要货数据,但业务用户不了解该系统复杂的数据存储结构(涉及超过40个表、1000余个字段),也不清楚每个字段名称下所包含的业务的含义和规则。
数据地图(DMAP)是华为公司面向数据的最终消费用户针对数据“找得到”“读得懂”的需求而设计的,基于元数据应用,以数据搜索为核心,通过可视化方式,综合反映有关数据的来源、数量、质量、分布、标准、流向、关联关系,让用户高效率地找到数据,读懂数据,支撑数据消费。
2、数据地图的整体框架
1)据地图的四类关键用户群体
3、数据地图的关键能力
(1)数据搜索:
数据搜索可以提高用户的搜索准确度,使用户能快速理解搜索出来的数据内容,通过组合搜索、筛选分类,数据标签等持续提升用户体验。
通过界面封装搜索引擎,只向用户暴露单一的搜索栏,通过搜索栏的单一或者组合搜索,发现数据。
(2)排序推荐:
排序推荐能让用户更容易地找到高质量、可消费的数据资产,缩小搜索结果集范围,减少数据识别和判断的时间,最终目标是让用户实现“所搜即所得”的效果。
对应搜索结果的推荐排序,主要在功能侧提供了两类服务,以便用户通过被动式和主动式的办法管理搜索结果。
1)被动响应推荐排序:
定义:用户在前端无须操作,通过推荐排序逻辑对结果集进行处理,完全基于数据管理分类、用户行为分析等输入。
优点:提升了用户的体验,无须操作即可以大概率定位到自己需要的数据资产
缺点:与用户之间缺乏交互,准确度因人而异,需要积累大量管理分类和用户行为的输入作为参考。
2)主动管理推荐排序:
定义:通过数据管理侧的分类和通用性的标签进行分类管理,用户在使用过程中可以通过分类标签对搜索结果集进行再次过滤和定位。
优点:与用户有一定的交互,让用户在使用的时候可以主动管理
缺点:基于管理侧和通用性收敛上来的标签难以满足个性化的需求
(3)数据样例:
除了可以通过提供数据资产的各类元数据信息来辅助用户读懂数据外,生产环境的实时数据对用户而言更有参考价值,因为生产环境直接采集的数据的内容,与用户可消费的数据内容是一致的。
(4)资产/用户画像:
资产/用户画像通过标签化的手段来对资产和用户进行清晰地描绘,有助于数据搜索和推荐排序的不断优化,贴近用户真实需求。
基于用户画像、经验模型库和资产画像理解文本语义,可以提高搜索准确性,解决资产查不到、难挑选等问题,并通过业务运营不断优化资产搜索能力,如下图所示。
【备注说明】数据地图是企业数据应用的最重要场景,通过数据地图展示数据资产,实现企业内、外部数据流通。但实际过程中真正能否把数据地图做好,在企业内部应用起来的并不太多,终其原因最重要的是解决业务看不懂,不会用的问题。借助数据地图,通过数据应用流程、数据支撑。同时要重视数据地图在企业内部的宣传。营造数据地图使用的氛围。