1、项目背景
近年来,随着大数据时代的到来,中行的数据规模增长迅速,数据来源、形态也呈多样化趋势,对于海量数据的多层次、高时效分析挖掘需求日益增加。
当前,国内银行业采用基于开放X86的MPP架构数据库构建结构化数据处理平台及分析应用已经成为趋势。在这一大背景下,中行计划采用海量并行计算(MPP)架构数据库产品技术,用于建设面向中行海量结构化数据加工处理与分析挖掘的总、分行数据平台及分析应用,以支撑不断增长的数据规模以及灵活、复杂的业务统计分析需求。
基于开放X86的MPP架构分析型数据库作为中行大数据建设的重要组成部分,支持中行后线数据类应用系统数据库由集中式架构向分布式架构转型,在成本可控的同时,大幅提高大数据计算处理能力,提升业务体验。
2、关注问题
该项目前期主要有两大问题:
1.信息孤岛:借记卡、信用卡、电子银行等等系统之间通过数据交换来进行交互,数据整合成本很高并且缺乏实时性。
2.基础架构无法支撑快速增长的新业务:原先基于ORACLE平台进行整合,后期性能瓶颈,导致一些新业务很难再加进来。
为此中行需要一款能够支撑全行分析应用需求并且满足后续业务发展需要的新数据库产品来满足需要。
3、建设要求
为了解决问题,未来新的数据平台和数据库产品需要满足以下要求:
l 能够处理多种数据并与各类上层应用整合
l 能够进行多维数据处理,支持常用的星型、雪花型模型
l 支持标准化查询接口
l 具有一定的扩展能力和潜力
l 技术符合目前数仓大数据发展需要,具有一定先进性
数据仓库技术指标要求如下:
l 数据容量:支持PB级数据;
l 扩展能力:支持在线的横向扩展、支持超大规模的集群
l 处理能力:每天处理5000个以上的复杂作业处理;
l IO能力:具备高数据压缩、列存储等特性;
l 高可用:7×24小时不间断服务,具备备份和容灾能力,无故障数据丢失;
l 硬件环境: 支持x86、Linux;
l SQL支持: 标准统一,满足SQL92及JDBC、ODBC接口;
l 信息安全: 自主可控。
1.2 解决方案
针对中行特点及建设规划,南大通用为中行搭建了数据集市和数据分析层,业务涵盖核心系统、个贷系统、总账系统、信贷系统、网银系统、风险系统等各类业务系统。
数据服务支持BI、各类应用接口、报表系统、SAS模型平台、监管报送等各类应用,支持总行、分行及监管机构用户的查询访问需求,打破了原来中行各类系统信息孤岛,实现了数据分析的统一整合、统一管理、统一调度,为实现中行数据大集中打下了坚实的基础。
总体架构如下:
数仓交换层:
通过中行数据交换平台将整体数据传输至数据集市层,数据来源包括:核心系统、个贷系统、总账系统、信贷系统、网银系统、风险系统等业务
以数据交换云存储平台为接口,传入数据集市
数据集市层:
数据集市层包括分行数据集市、总行审计集市、信贷风险集市、反洗钱集市、个金集市、内控风险集市等六大集市,集数据处理、分析、查询于一体,全面支持中行数据集市层所有功能。
1.3 应用效果
1、 实施情况
中行总行总计部署6个集市、3个应用,共11套集群,227节点,约3PB中行江苏、北京、内蒙古、澳门等10家分行,部署约150节点全面支持总行、分行所有数据分析型场景审计集市:总数据量库内450TB
2、 实施效果
全面支持总行、分行所有数据分析型场景系统可支持全行全业务覆盖的综合查询和分析
中行数据平台目前全业务数据量超过5PB,支持80并发下混合复杂查询的秒级响应。