(2020.12.21)-数据服务体系建设
一、数据服务体系概念
1、定义与定位
- 数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务之中,激活整个数据中台,也是数据中台的价值所在;
- 数据服务是对数据进行计算逻辑的封装(过滤查询、多维分析和算法推理等计算逻辑),生成API服务,生成数据应用可以对接数据服务API,让数据快速应用到业务场景中。
2、主要分类
- 基础数据服务:面向的对象是物理表数据,场景包括数据查询、多维分析等,通过自定义SQL的方式实现数据中台全域物理表数据的指标获取和分析;
- 标签画像服务:面向的对象是标签数据,场景包括标签圈人、画像分析等;
- 算法模型服务:面向的对象是算法模型,场景包括智能营销、个性化推荐和金融风控等。
3、核心价值
- 确保数据在业务层的全域流通:数据服务可以对数据中台的全量数据进行封装透出,让中台的数据支撑业务,加速数据业务化的流程;数据业务产生的反馈数据可以回流到数据中台,不断优化现有的数据服务,让数据在业务中持续流动起来;
- 降低数据接口的重复建设:通过一次创建、多次授权的方式交付给前段;
- 保障数据获取的及时性和稳定高效:通过统一的数据服务,对于不同业务部门给数据中台提的数据需求,中台管理方可以进行统一规划和分配,从整体上保证资源和需求的协调;
- 使数据能力扩展:通过统一数据中台,不断扩展数据源、优化数据资产建设、扩展数据服务封装方式,将数据能力进行持续扩展,不断给数据业务和数据应用提供更多的数据价值。
二、4中常见的数据服务
1、查询服务
- 定义:输入特定的查询条件,返回该条件下的数据,以API形式供上层应用调用;
- 特征
a. 支持配置查询标识:可以根据查询标识进行快速检索;
b. 支持配置过滤项:可添加一些过滤项实现查询数据筛选功能;
c. 支持查询结果配置:支持反馈结果的分析和排序功能。
- 构建过程:数据接入、数据查询、结果规则配置、能力开放。
2、分析服务
- 定义:通过各种数据统计分析的方法,对数据做任意维度的数据分析挖掘,让数据分析人员快速了解数据集的特点,以支持数据化运营、分析决策等场景。
- 特征
a. 支持多源数据接入:分析服务能支持与Hive、Elasticsearch、Greenplum、Mysql、Oracle、本地文件等多种数据源进行连接;
b. 高性能即席查询:内置告诉查询引擎,能够对数据进行高性能的即席查询,实现亿级数据毫秒级分析和计算;
c. 多维数据分析:除了支持常规数据分析上卷下钻、切片切块之外,还应该支持多维的数据分析亿级深层次的数据挖掘;
d. 灵活对接业务系统:应提供包括API路径、允许方位的HTTP方法、后端服务类型API请求模式等在内的多个API配置项。
- 构建过程:数据接入、在线建模、能力开放。
3、推荐服务
- 定义:即千人前面,对不同的人对物的行为进行数据挖掘,构建每个人与物之间的关系程度,来推荐人、物以满足用户的兴趣爱好,以提升用户对业务的粘性。
- 特征
a. 支持不同行业的推荐
b. 支持不同场景的推荐
c. 支持推荐效果优化
- 构建过程
4、圈人服务:选择行业和场景模板、原始数据接入、参数配置、能力开放、数据回流。
- 定义:通过提供圈人服务,帮助服务使用者从全量用户数据中基于标签组合筛选出符合制定特征的人群,并以API的形式对接上层的营销系统,从而实现营销广告的精准触达,最终达到老客户召回、休眠客户激活等运营目的。
- 特征
a. 支撑人群圈选:通过sql代码或标签取值组合等多种方式,实现人群查找,帮用户找到对的人群。
b. 支持人群计量:圈选后,系统需要快速计算出符合条件的人群量。
c. 支持多渠道对接:将人群名单直接对接到短信系统、微信投放接口运营活动系统等。
- 构建过程:数据接入、人群圈选、能力开放(圈选人群包名单、人群特征)。
三、3种常见的数据应用
1、数据大屏
- 定义:把一些统计性、结论性、预测性数据通过可视化矿建渲染出来直观地呈现给读者;
- 步骤:数据调研、数据开发、数据服务、可视化呈现。
2、数据报表:对数据进行分析计算,通过表格、图像等形式展现。
3、智能应用
- 定义:智能应用结合数据建模和人工智能等多种技术,从数据中提炼、发掘、获取有揭示性和可操作性的信息,为人民在基于数据进行决策和执行任务时提供有效的智能支撑。
- 举例应用:
a. 个性化推荐应用:根据个人喜好物品的特性,或者相同喜好人群的习惯等信息进行个性化的内容推荐;分为三类:基于人口统计学的推荐、基于内容的推荐、协同过滤推荐;
b. 精准营销应用:将营销信息或营销产品通过精确的方向技术推送给目标受众的营销手段;精准营销系统一般需要先建立产品和用户的标签系统,形成产品画像及用户画像,通过标签圈选功能,筛选出满足标签值组合条件的人群,对接营销投放系统,并对营销效果数据进行对比分析。
四、数据服务背后的产品技术
1、多样数据服务
- 标签服务化
- 自定义sql服务化
- 算法模型服务化
- 注册API服务化
2、生命周期管理
- 服务的创建部署
- 服务的授权赋能
- 服务的运行监控
- 服务的更新升级
- 服务的到期停服下架
3、服务安全控制
- 稳定性:主要考虑做好自动扩容、容错等相关的工作,一般采用分布式部署机制,提高性能及可靠性;
- 安全性:鉴权机制、黑白名单、申请审批;
4、多版本管理
数据服务通过对服务的过版本管理,可便捷支持切换服务多版本,同时支持服务路由管控(蓝绿部署和灰度验证)。
- 蓝绿部署主要指在部署时,如何保障业务不停机,用户最小感知;
- 灰度验证是新部署的服务能力,找一小部分流量来进行验证,确认验证成功对实际业务无影响时,在将服务应用到全部流量,是一种对使用方的切分验证方式;
- 蓝绿部署和灰度验证都需要通过服务调用的路由控制来实现,蓝绿部署是调用路由在两个不同版本之间的切换,而灰度部署则是在不同版本上流量的分拆验证。
5、审计与计量计费
- 数据服务的审计主要包括:服务API审计列表、API调用成功记录、API调用失败记录、API调用方来源审计记录。关键指标如下:
a. 服务接口调用总计:平台监测所有服务接口,并将接口调用信息归类、汇总、统计,分析热门服务排名、重点检测此类对象;
b. 今日调用接口总计;
c. 今日接口调用时段分布:分析高峰期与低峰期,帮助用户察觉和关注高峰期调用上限值,从而合理安排相关系统运行时段,错开高峰;
d. 热门调用接口分布。
- 计量计费:按次计费、按时长计费。