贺广东联通跨域跨平台实时计算引擎V1.0版本发布

第一章 项目概述
1.1.业务现状
广东联通2013年开始着手进行大数据平台的建设,在2014年初步建成了一个能够提供指标标签服务的大数据基础平台,并在其基础上构建了自助工具基本应用,为广东联通的大数据发展打下了结实的基础。但已有的大数据平台,具有如下几大核心痛点:

图:核心痛点
1.已支持大量业务使用场景,但未统一管理生产系统数据血缘关系、数据质量和数据安全管理有待进一步规范;
2.已积累大量数据,但未对数据生命周期有效管理、未实现数据跨域查询与计算;
3.已有基础的数据开放接口,但未通过开放门户封装成有效的数据产品或数据服务;
1.2.项目目标

图:项目目标
本项目希望通过对大数据平台进行重构扩展,实现:1、增加大数据平台的多源异构支撑能力,跨域跨平台的实时数据查询功能,实现数据融合;2、新增数据治理功能,平台通过统一的元数据模型进行数据的生产管理和权限控制。3、建立OpenAPI接口应用规范;大数据平台统一数据口径,打破各系统间数据孤岛、以高效计算能力为基础提供统一的内外部服务,提升数据利用效率。实现统一的服务总线;4、设计元数据模型,所有功能均基于元数据驱动;5、系统设计松耦合,模块功能可插拔,可扩展性强;

第二章 平台用户角色设定
这里写图片描述
图:平台用例图
平台共有4类角色:
1、领导:领导关注数据加工生产过程中的趋势及存在的问题;关注大数据平台接入的数据资产、应用系统的数据量、访问量、频次等信息;
2、管理员:负责对大数据平台的生产过程进行监控,发现平台运营、生产运营中存在的问题;并对元数据进行管理维护;
3、大数据应用:大数据应用通过平台的服务总线获取应用需要的大数据;也将本应用生产的数据作为数据源注入平台;应用还提供一些共享API,注册到平台的应用共享层;
4、业务分析人员:业务分析人员在平台提取数据,进行业务分析;

第三章 当前的项目亮点
3.1.元数据驱动
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
本项目中设计了一套数据资产的元数据模型,使之不仅能描述数据资产的物理信息,还能准确的描述数据的业务信息、管理信息;
这里写图片描述
图:业务元数据,物理元数据,管理元数据
通过元数据驱动,使得业务人员和管理人员不再依赖于数据资产的表和字段信息:
1、使用业务元数据,描述数据资产的业务属性,通过业务元数据,描述数据分析人员、业务人员能理解的业务属性:包含但不仅限于:数据是指标还是标签;数据是连续变量还是分类变量;数据的计算公式,数据的业务口径等;
2、只对外开放业务元数据,屏蔽物理元数据,业务操作不再受到物理存储的局限性:对用户只公布数据资产的业务信息,而屏蔽数据的物理信息;所有的物理信息由平台进行智能转换;当数据资产发生迁移或变更时,并不会对用户的使用造成影响,所有的物理信息于用户而言都是透明的;
3、基于业务元数据,进行管理元数据的配置,实现数据资产的管理:对管理人员只公布数据的业务信息,管理员可基于数据的业务名称对数据资产进行权限、安全、质量、生命周期等管理;且当该数据资产的物理存储发生变化时,数据资产的管理规则不需要重新配置,依然可以发生作用;
4、基于业务元数据的数据资产图谱:对业务人员展示数据资产的资产图谱;

3.2.跨域跨平台实时计算的数据服务总线
这里写图片描述
图:跨域跨平台实时计算引擎
3.2.1.1.开发了跨域跨平台的实时引擎,该引擎由3部分组成;
1、服务总线:负责接受用户请求的业务信息,实现对用户请求的鉴权、安全控制等,负责将经过处理的请求推送给智能SQL;负责将智能SQL返回的数据转换为用户请求的数据格式;
2、智能SQL:负责将用户请求中的业务元数据转换为对应的物理元数据;负责根据管理元数据确定数据的权限与安全规则;负责根据管理元数据调用数据的、解密与脱敏算法;负责根据用户请求的业务信息、相关的物理信息、组合生成可执行的查询语句;负责将查询语句推送给查询引擎;
3、查询引擎:负责将查询语句下推到各物理数据库,负责将各物理数据的数据实时抽取到查询引擎的内存中,负责将抽取到的数据在内存中进行数据规约、解密与脱敏;并将获得的数据集返回到智能SQL;
3.2.1.2.跨域跨平台的实时计算支撑能力
1、支持ODS、EDW的融合计算:通过分析数据特性和使用要求,选择合适的异构数据源进行存储,而不是将他们集中到单一的数据仓库中;优点是:能更好的满足各类数据的使用要求;传统数据仓库大量的构建模式是基于单一数据仓库的基础之上开始ETL,即要从各大业务系统中把数据都抽取到一个数据仓库中,要聚合、我要转换、我要到哪个地方去,甚至需要对不同来源的数据进行分析。构建项目的人力、时间、金钱的成本都非常高,而且需要耗费大量的人力去做重复性的工作。
2、支撑本地与云计算的融合计算:在同一个企业之下,你可以解决本地数据与云端数据的融合问题;
3、支持历史数据和实时数据的融合计算:在同一个请求中,可以解决历史数据和实时数据的融合查询;
3.2.1.3.跨域跨平台的实时计算引擎的性能
这里写图片描述
如图:与其他方式的数据库连接相比;
3.3.数据全流程的数据治理
这里写图片描述
图:数据全流程
3.3.1.1.数据全流程:广东联通的数据全流程包括:
1、数据源:各业务系统的数据存储空间,作为大数据的数据源;
2、ETL生产:ETL工具,对数据源的数据进行抽取,清洗,转换;
3、大数据存储:ETL生成的数据文件,通过大数据平台的采集流程采集进入大数据存储;大数据存储中的数据根据使用要求会分为不同的存储形式;数据在存储中不是一成不变的,根据数据性质的变化,数据也会在不同的存储形式中进行转换;其中日志库有hadoop、oracle、文件集群,他类似于ODS,指标库也有hadoop、redis、IQ等多个集群,他类似于EDW但不限于edw,他是以实体为对象进行存储;各大数据应用通过服务总线从指标库、日志库中抽取数据,可以在本应用中进行缓存作为应用的DM层;
4、大数据应用:各大数据应用,通过服务总线、应用共享层,向大数据存储获取数据,并依据这些数据开发出各种专业的大数据应用系统;
3.3.1.2.数据全流程监控:
1、数据源监控:监控各大业务系统新生成的数据源的变动情况;
2、ETL生产过程监控:监控数据从数据源,通过ETL抽取、清洗、加工后生成数据文件的过程;
3、数据采集监控:监控将ETL生成的文件存入大数据存储的过程;
4、大数据存储转换监控:监管大数据在大数据存储中进行转换的过程;
5、数据服务监控:监控大数据应用通过服务总线和应用共享层从大数据存储获取数据的过程;
3.3.1.3.全面的质量稽核:
1、元数据稽核:支持对元数据进行稽核;包括非空性、唯一性、关联性、类型约束、完整性、真实性等;
2、字段稽核:支持对表中的数据进行稽核,包括完整性、合理性、及时性、一致性、准确性、唯一性等;
3.3.1.4.全流程的血缘分析:
1、血缘分析:贯穿数据源、ETL、大数据存储、大数据应用全流程的字段级血缘关系;
2、影响分析:通过分析任一节点中的异常,判断后续数据的影响;
3、数据地图:以图形化的形式展示数据的全流程及血缘关系;
第四章 后续优化
4.1.自定义数据的查询算法优化
用户可对已有的数据进行自定义加工,加工的层次一多,为保证查询性能,需考虑对算法进行优化;
4.2.实时数据的查询算法优化
类似于上网日志,1天有10T的数据产生;为保证实时刷新数据,需考虑对算法进行再优化;
4.3.第三方应用数据接口的兼容
通过代理,与其他第三方应用的数据接口实现兼容,需要考虑不同应用之间的设计理念的差别;
4.4.运营全视图
1、生产运营视图:数据全流程中四个环节的任务量、完成率、及时性、故障率等信息的全面展示;以及数据异常波动、告警、响应、处理记录的展示;
2、平台运营视图:大数据平台的日常服务的访问量、频次、及时性、故障率等信息的全面展示;以及数据异常波动、告警、响应、处理记录的展示 ;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值