高容错!银行如何搞定PB级非结构化数据的存储与快速搜索

作者介绍

张鹏, 哈尔滨银行系统管理组存储/备份/应用负载管理员,具有丰富的项目实施与运维管理经验,参与行内新一代核心系统建设、同城与异地容灾系统建设与切换、非结构化数据服务平台迁移改造等项目,对异构存储设备监控、存储虚拟化及同城双活、分布式存储有深入的研究和应用,结合业务数据访问的多重需求进行存储资源适配。

引言

本文针对银行内非结构化数据增长迅速、存储困难、搜索缓慢、识别采集空缺等问题,提出了非结构化数据服务平台的设计和部署方案,并对平台中的非结构化数据生命周期管理策略与平台容灾容错架构设计思路的进行了分析与总结,最后,做出了商业银行非结构化数据服务平台的业务对接计划,提出了未来业务的发展方向。 

一、背景:

非结构化数据服务平台现状与行内要解决的实际问题

银行作为非结构化数据密集的企业,基本上涵盖所有类型的非结构化数据,如视频数据、音频数据、图片数据,既包括系统自己产生的近些年越来越多的行内业务系统,也包括与客户交换产生的,还有购买获取的,这些数据按照格式分为电子文档、图像、音频、视频、XML/HTML等类型。非结构化数据格式、标准多样,而且这些数据每年以几何级数在增长,在技术上比结构化数据更难存储和分析。 

行内信贷类业务、信用卡业务、手机/网上银行等渠道类业务、财务共享业务、柜面无纸化以及电子档案等多个业务系统,仅影像文件每日产生新写入文件接近10万张,调阅影像文件近30万次,每年数据增量近10T,随着线上业务的开展,与业务场景相关的影像文件数量与容量仍会持续增长。此外,银行内部邮件信息、聊天记录客服热线音频文件、市场调研结果、视频课件、客户关系管理系统中的评价及程序中的文本字段等非结构化数据都面临着和影像文件类似的存储与管理压力与挑战。

二、建设目标:

如何解决上述问题并设计合理架构满足未来发展

随着非结构化数据的剧增,传统型数据库无法满足存储大数据基本的非结构数据,导致架构急需做出调整,尽可能的满足业务需求,实现PB级别数据的存储以及快速搜索。在此基础之上提出非结构化集中处理平台产品方案,主要针对行内业务系统产生的图片、文档、提供一套高可靠、高效性、高扩展性、高容错性的企业级非结构化数据服务解决方案。

为了大规模、高效率地存调、分析非结构化数据,平台针对标准接口的字段进行了定义,提供一个较为规整、有章可循的非结构化数据集,提取其基本元素,形成数据字段。

数据字段是通过对非结构化数据进行主题提炼形成主题字段,通过汇总非结构化数据通用属性形成通用字段,通过标识非结构化数据的格式形成技术字段,并基于以上三个维度的标签满足更大规模的数据分析和系统性存储。

主题字段包括渠道来源、机构号、流水号、系统号和数据来源等,通用字段通过汇总非结构化数据的通用属性形成,这些属性不涉及非结构化数据的主题,包括扫描时间、扫描人、影像名称、文件类型等;技术字段反映的是形成非结构化数据所运用的原始处理技术,从而获得非结构化数据的底层特性,包括影像ID、数据大小、分辨率等。上述数据字段形成后,非结构化数据的基本属性与业务属性都可以较全面的描述和快速检索,也为不同类型非结构化数据的统一存储提供了可能。

非结构化数据服务平台在设计上采用低耦合思路,分为表象层,业务逻辑层,数据访问层的三层架构,它会将业务产生的图像数据扫描归档到影像平台,并实现影像的查询、条码打印、按顺序批量打包下载影像文件的归档、修改归档、拷

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值