星环科技作为企业级大数据基础软件开发商,通过发挥基础软件硬实力已经成功助力金融、政府、能源、交通、制造业等多个行业的客户实现了数字化转型,积累了丰富的成功经验。【行业案例】旨在定期分享星环科技最新案例成果,为各行各业企业数字化转型提供参考和决策依据。
本篇将介绍星环科技如何基于数据云平台TDC为富国基金建设万能的数据湖,助力其实现数据统一与共享交换。
案例背景
富国基金管理有限公司成立于1999年,是中国老10家基金公司之一。2003年,加拿大历史最悠久的银行——加拿大蒙特利尔银行(BMO)参股富国基金,富国基金管理有限公司又成为国内首批成立的十家基金公司中第一家外资参股的基金管理公司。截止到目前为止,富国基金全产品的资产规模超过了 12,000 亿,这个规模还在不断增长。基金公司从某种意义上也是数据公司。采集数据、加工数据、应用数据,最终做出业务决策是基金公司在运作中典型的工作过程。在这个过程中,数据从信息转化为价值的能力决定了公司的竞争力,它取决于数据采集、处理、应用效率、准确性、以及信息的服务方式。当行业的超额收益缩小了以后,信息优势就决定了基金产品收益的稳健性、风险控制能力与客户服务质量。随着行业的发展,投资品种的多元化,资产规模的上升,基金产品成为机构与个人投资的重要工具,来自外部监管等方面有关数据质量、数据安全、综合数据治理水平的要求也日渐提升;同时,富国基金作为行业的头部公司、系统性金融单位,更需要特别在数据治理、数据安全、数据质量等方面建立较好的保障与管控机制。然而,富国基金原来单一的数据仓库平台架构开始面临诸多挑战:
- 不支持实时数据处理:实时风控大屏、实时直销申赎统计、画像及精准营销、实时估值等业务需求日益迫切,结合富国基金IT整体规划要求,富国基金应适时构建实时数据处理能力。
- 数据仓库平台存储昂贵:解决海量数据的存储问题,根据数据价值高低、数据的冷热不同,存储到不同的平台介质上。
- 不支持半结构、非结构化数据处理:基金公司各类研报、公告、舆情等外部资讯数据对公司的决策同样至关重要,而该类数据很多是半结构、非结构化的存储格式。
- 数据孤岛问题:不同团队各自建设,数据没有打通;同一份数据在多个业务系统内保存;缺少统一标准,难以进行数据管控和质量提升。
- 不支持云原生部署:现有数据仓库平台 Vertica 构建在分布式数据库上,基于物理服务器部署,弹性不足。
解决方案
针对富国基金面临的挑战和现状,基于星环科技数据云平台 Transwarp Data Cloud 为富国基金提供了一站式数据湖解决方案。
基于星环科技数据云平台 Transwarp Data Cloud(以下简称TDC)、星环大数据开发工具 Transwarp Data Studio (以下简称TDS)、星环智能分析工具 Sophon 等产品的数据湖解决方案,能够一站式解决企业从建湖到管湖全部过程,为富国基金管理和决策提供数据基础与分析能力保障,提升富国基金的竞争力。
作为富国基金数据湖云底座的数据云平台 TDC ,基于云原生技术构建,具备极致的弹性能力,并且融合了数据 PaaS、分析PaaS、应用 PaaS,实现数据、应用、模型的互联互通,打破富国基金不同业务系统的数据孤岛。
在数据治理、元数据、数据质量、数据资源目录等能力上,星环科技提供了集开发与治理为一体的一站式工具平台 TDS,提供了数据开发、数据集成、数据管控、数据商城和数据服务等能力。TDS 的子产品涵盖了:数据库开发工具Waterdrop、数据库在线开发与协同工具 SQLBook、大数据整合工具Transporter、任务调度软件 Workflow、可视化报表分析软件 Pilot 、数据服务开发与管理工具 Midgard以及数据资产目录软件 Catalog、数据治理工具 Governor、数据安全防护工具Transwarp Defensor、数据商城 Transwarp Foresight、数据服务开发与管理工具 Midgard 和标签管理平台StarViewer。可以帮助富国基金形成标准的数据资产管理规范、构建统一的数据加工、共享能力,形成数据资产。
Sophon 是一款包含数据分析与机器学习建模的一系列智能分析工具软件,能够一体化地完成从数据集成、模型构建、知识推理、辅助决策,支撑业务的数据分析、探索、服务流程,从而可以帮助开发者将智能化落地到企业应用中,帮助企业进行以数据驱动为核心的开发、运营和产业升级。Sophon主要覆盖数据分析中的计算智能、感知智能、认知智能等三个主要方向。Sophon的技术特点是采用分布式计算模式,可以进行结构化、半结构化和非结构化三种不同类型的数据的接入、处理、分析与模型发布及管理工作。在富国基金项目上,可以用于搭建联合创新实验室,通过引入人工智能、数据挖掘技术来提升数据价值能力。
建设成效
通过 TDC 的多租户能力
实现富国基金数据的统一与共享交换
TDC通过建立富国基金统一的数据湖租户空间,统一归集富国基金内部各业务系统的数据,实现了富国基金数据的高效治理和管控。
TDC 数据湖可轻松实现数据在不同应用(租户)之间的共享,后续新增租户可直接使用统一数据湖共享的数据, 租户共享集群中的某些节点,这些节点能被所有基于TDC创建的租户调度。
TDC 上可按需创建租户,租户间资源隔离、数据隔离、业务隔离,不同租户按需部署不同的应用。同时,TDC支持将不同租户设置互信,相互之间共享组件和数据。租户之间计算资源可动态共享,租户2空闲时,租户1可使用客户的全部服务器的计算资源,提供计算性能和查询效率。租户可将自身组件共享出去,在TDC数据云内与其它共享。租户组件的共享可减少组件部署成本。通过租户共享,辅助权限管控,实现租户之间数据的共享。基于 TDC 帮助富国基金构建的企业级数据 PaaS 平台可以实现以下功能:
★ 统一富国基金的数据PaaS,大数据业务全部基于TDC 赋能
★ 数据 PaaS 平台支持开源组件、中间件的扩展
★ 实现多租户场景下多云融合
★ 提高了资源利用率,按需创建租户,租户资源互相给
★ 业务隔离,不同租户按需部署大数据产品实例
★ 应用和数据统一部署
★ 应用和数据逐步互通、融合
★ 基于私有云平台建设数据湖、Hyberbase容灾场景
★ 统一的数据湖空间,高效管理企业数据
★ 通过共享组件辅以权限控制,实现数据的按需共享和交换
★ 通过多租户数据湖进行统一的数据申请下发
最终成果
- 已完成构建集数据吞、吐、存、算于一体 的TDC数据湖第一阶段建设,实现包括离线批处理、数据分析、实时流处理等基础能力。
- 建设基于TDC的数据湖,实现多源数据归集,具备丰富的数据获取能力,实现数据在不同租户间的管理和共享,解决历史数据存储及数据孤岛问题。
正在探索的能力
- 不断优化完善基于 TDC 帮助富国基金构建的企业级数据 PaaS 平台,充分发挥大数据平台性能与场景优势,同时辅以数据资产管理及数据检核,助力富国基金数据质量整体提升,实现数据资产化并赋能业务应用。
- 搭建全生命周期的数据资产管理平台最终实现数据统一存储、统一资产管理、统一数据服务、统一安全管理及运维,在提升数据资产管理能力的同时,满足各应用系统多样化需求。
- 量化投研,基于星环时序数据库的产品能力以及多年来对于分布式计算的深刻理解,帮助富国基金提升智能量化投研能力。
未来规划
- 在完善数据管理能力的基础上,帮助富国基金构建数据科学平台,实现反洗钱、舆情监控、智能选基等人工智能场景。