技术解读|实时对客释放全量数据价值

巨杉数据库SequoiaDB从「多模数据湖」、「实时数据湖」发展到「湖仓一体」架构,为客户提供「数据核心」所需的全量数据存储,实时对客服务,及基于统一数据源的分析能力,充分激活客户的离线数据。当中,「实时数据湖」对比Hadoop架构,除了海量数据存储能力外,还提供高并发的实时对客服务能力。

随着数字化转型的深入,以及金融科技的不断发展,金融银行业的应用系统正在经历从功能型系统向数据型系统转型,金融企业越来越认识到全量数据的价值所在。目前,国内个别大型银行已经完成数据湖的初期建设,实现以 “一湖两库”(数据湖+数据仓库+信息库)为核心的大数据2.0架构,提升大数据服务能力。

通过建立数据湖对全量数据进行沉淀和积累,打通各业务系统之间的数据共享、拓宽应用范围、加速业务探索、释放数据价值,从而为企业发展注入新动能,已成为金融银行业的迫切需要。国内各银行也认识到数据湖的潜在前景,正在积极地进行着技术探索和选型储备。

近几年数据湖的探索和落地过程中,企业对于数据的实时性越来越重视。一方面要求全量数据在湖内即时可用,一方面更强调数据入湖的高时效性:

  • 面向客户:多源实时数据的共享,将带来更高的用户体验,如移动端客户资产视图,将来自核心、信用卡、理财、贵金属交易等数十个业务系统的资产数据实时展现,为客户提供统一、快捷的服务入口。

  • 面向营销:通过实时计算,可实现更精准的客户画像及营销决策,从而提升获客能力。如客户资产AUM,基于全量数据进行实时的、复杂的多维度指标计算,从而提升客户评级、费率优惠等环节的营销效果。

  • 面向监管及风控:全量实时数据不但为监管、司法部门、合规部门提供高保真、即时可用的数据准备,而且能够加速风控模型计算,提升风控时效和准确性,从而保障资产安全。还有实时反欺诈,可基于实时数据迅速识别、阻断可疑的欺诈交易行为,有效保护客户资产。

  • 面向运维:数据全量即时可用,可将监管、运营分析等内外部提数过程实现自助化,大幅节省人力成本及资源投入。同时,将核心系统部分查询下移,可缓解业务负载洪峰(秒杀、双11等),提升源系统稳定性。

当前,在金融业大数据架构中,多种数据形态呈共存状态,如ODS、数仓、主题集市等,在全量数据完备性、时效性、共享能力、技术栈复杂度方面,存在明显的局限性。

架构

特点及局限

ODS

保留周期短,即用即清理,无全量数据累积,仅T+1

数据集市

为特定主题单独构建,烟囱式建设,无全量数据累积

数据仓库

高度模型化,建模成本高,时效T+1甚至更久

巨杉数据库-实时数据湖方案

巨杉数据库深耕金融银行业,聚焦于从数据湖到湖仓一体的技术架构,针对业界对全量数据实时查询及处理的需求,提出实时数据湖技术方案。

实时数据湖提供了一种全量、即时使用、高性能的数据存储理念。它强调“先入湖,后使用”,即数据以原始形态,全量集中存储,在湖中按需随时使用。通过丰富的计算引擎,提供多样化的数据处理及服务能力,灵活应对联机对客查询、数据分析、批处理加工、数据科学等业务场景。

巨杉数据库「实时数据湖」具备如下技术特点:

  • 超大规模存储。存储容量支持百PB级,并提供在线弹性扩展,应对数据爆发式增长;

  • 高时效入湖。灵活地支持批量、流式入湖,高度兼容OGG、CDC、Canal等同步工具,对接Kafka、Flink等流式引擎,时效性可达到T+0;

  • 多源异构。支持多源异构入湖,提供灵活的数据形态,包括结构化、半结构化等存储格式,灵活应对上游系统的结构差异及变化;

  • 高性能。通过稳定的分布式框架和灵活的数据多维切分机制,为实时数据提供高并发、低延时的加载、查询、加工、分析等计算性能。

  • 多样化数据服务。事务ACID能力,兼容标准SQL语法,支持多字段灵活索引,能够满足更多样化的应用场景,如实时对客查询、数据加工、数据分析、数据科学等。

相比于传统的ODS、数据集市和数据仓库,「实时数据湖」的优势在于:

ODS

数据集市

数据仓库

实时数据湖

数据范围

由集市、数仓需求决定

面向特定主题或部门

面向多个主题及大量业务系统

面向大量业务系统甚至全行

保留周期

日级

各层按需保存,从日到年不等

各层按需保存,从日到月不等

可按需设置,日/月/年/永久

时效

T+1

T+1

T+1

支持T+0/T+1

加载方式

批量

批量

批量

流式/批量

数据内容

原始数据

过程数据/结果数据

过程数据/结果数据

原始数据/过程数据/结果数据

查询特点

固化的,基于主题的

固化的,全局的

灵活,可固化可即席

服务类型

加工/分析计算/结果查询

加工/分析计算

贴源明细查询/批量加工计算/分析/结果查询

典型案例

某大型股份制银行,以巨杉数据库作为存储底座,构建了实时数据湖。

  • 现已接入数百个业务系统的数据,已成为全行级统一数据服务平台,具备了实时数据湖的雏形

  • 数千张表,容量达PB级。

  • 采用流批结合的方式入湖,其中实时数据实现T+0同步,秒级入湖,查询响应1秒内。对接OGG、CDC、Kafka、Flink等流式处理工具。

典型业务场景,例如:

  • 五年流水查询

    完成两核心数百亿交易明细数据的积累(国内核心、卡核心),面向客户提供五年交易流水查询,平均查询响应达数十毫秒级,在国内银行业遥遥领先。

  • 360资产视图

    为客户提供个人账户下的全局资产信息,数据来自国内核心、卡核心、理财、贵金属交易等十余个业务系统,查询量数百万笔/日,峰值QPS为数百笔/s,其中仅手机银行渠道的资产查询就已占查询总量近半。

  • 实时资产AUM

    以客户维度为基础,提供数百个复杂AUM指标的秒级实时计算,主要应用于客户身份识别、费率减免、客群分析、购买力判断、营销达标分析等场景。另增加了机构维度,为管理驾驶舱机构提供高频统计,展现时效为半小时。

  • 司法查询

    实现全量数据高保真在线,大幅缩短司法查询在数据提取环节的处理时长,司法查询自助化替代率近九成。单次处理时间缩短至0.5个工作日,每年减少磁带恢复近千次,节省人力约3人/年。

结语

巨杉数据库拥有100%自研的分布式数据库内核,目前已在银行、保险、证券等各领域,拥有丰富的最佳实践及案例,提供实时数据湖存储底座,助力客户实现提升降低成本、提升用户体验、提升运营效率、探索业务价值等目标。

未来,巨杉将与合作伙伴紧密携手,提供优质的产品、技术服务及生态支持,在数字化转型过程中,共同助力客户释放全量数据价值。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值