一、机构数据应用
券商/基金/保险等金融机构(以下简称“机构”),一般会购买多家数据厂商(以下简称“数据商”)的各种关系型数据库(包括但不限于:公司资料、财报、新闻、研报、宏观、产业链等等),作为自身投研和投资服务的基石。有条件的机构,还会搭建自己的数据中心。
实际应用中,机构普遍存在一些技术上的困惑:
1.数据质量
从数据商下载的数据,机构只能被动使用,很难做到对数据的全程监控。极端情况,即使数据商修改甚至删除了数据,机构也不易知晓其详细过程。
2.数据安全
每家数据商的库表结构都不太一样,如果不对其进行处理就直接使用,很容易形成路径依赖,这是一个巨大的安全隐患。所以,自建数据中心的机构,第一步就是设计自己的规范,不管谁家的数据,都通过转档变成自家的格式。但通常ETL需要较大的研发投入,而且还容易因为各种预期外的故障导致数据丢失。
3.数据服务
已经清洗/衍生/整理好的数据库,如何提供给子机构或者客户使用?数据库分发是一种广泛的应用,即:将母数据库,拆解成各种子库,同步落地到具体的环境。如何轻松灵活的定制分发逻辑?如何无视数据库异构和网络异常,确保数据分发的万无一失?万一误操作删除了目标库的数据,如何能照样补齐?
二、UTS功能说明
UTS数据同步系统(以下简称“UTS”),无需日志和触发器等配合,通过比对源表和目标表的主键、时间戳字段等差异,智能判断DDL操作;基于冗灾容错理念设计,再恶劣的环境也能同步,绝对不会丢失数据:即使人为恶意破坏目标数据库,也照样智能补齐!支持mssql、mysql、oracle、db2等主流关系型数据库的交互传输。
针对上文所说,机构在数据库技术方面的困惑,UTS的解决方案是:
1.数据稽核
UTS通过同步比对,可以判断出数据源发生了何种操作(数据新增、修改、删除),定期将这种比对差异落地保存,就可以形成对数据的全程监控:
-
宏观统计上,机构可以对数据商数据的更新有详细的记录:
统计报告,记录数据库每日的操作汇总。尤其对于修改和删除这种严格意义上来说是数据故障的行为,有明确的统计留痕。
特征报告,对数据商表级别的更新状态进行画像。大致判断出不同的数据,每天的更新时间,更新数量等。
-
具体到被监控的每个表,将对每条数据进行详细的生存周期跟踪:
何时新增记录;
何时修改记录,哪些字段的具体内容做了变动;
何时删除记录。
通过数据稽核,机构可以对说使用的数据商数据,质量如何有更直观和科学的依据,另外有理有据的跟踪明细,倒逼数据商提高自己的数据质量。
2.视图转档
传统的数据同步和ETL转档,一般都是基于日志模式。这种方式,一是增加了系统维护负担,二是有逻辑上的缺陷:当异常发生时,需要人工干预系统才能继续进行。
UTS的时间戳跟踪机制,除了支持表对表的传输,还支持视图对表的传输:将需要转档和转换的逻辑写成一个视图,通过UTS同步,到下个环节就成为物理表。所以,ETL将大大简化,无需太多的系统支撑和编码功底,会写视图,就能转档,还绝对不会有数据丢失;删除这种一般只能用触发器搞定的操作,也能轻松解决。
简单高效的视图转档,可以让数据运维人员轻松提供数据服务:
-
轻松将数据商的数据结构,变成机构自己的数据结构;
-
轻松进行数据衍生,统计、拆分、合并成新的数据结构;
-
轻松数据整合,比如将A数据商最优的财务数据和B数据商最牛的预期数据,以及机构自己的资管数据,进行深度糅合,最大可能的博采众家之长,以生成数据资产。
-
轻松数据库表拆分,为下游应用场景提供更好的服务。
3.定制传输
UTS的本职工作,就是数据镜像同步。扫描源数据,增量判断需要同步的内容,无视环境的恶劣,传输到目标数据库:
-
数据库异构同步,四类关系型数据库可以交互传输;
-
指定部分表和视图同步;
-
指定表和视图的部分记录集同步;
-
指定表和视图的部分字段同步;
-
字符集映射,内容替换等等个性化需求。
三、系统优势
1.性能优势
日线行情级别的表,一小时同步2000万条记录以上;日常数据更新,秒级别完成;
2.市场优势
UTS涵盖了一线大多数数据商的支持,机构可能会踩的雷,UTS早就解决了。数据商客户包括但不限于(排名不分先后):朝阳永续、通达信、财汇、聚源、恒生电子、天相、通联、港澳、巨灵等;
3.冗灾冗错
这点是最大的优势,只要网络还是通的,只要数据库不停止服务,UTS就绝对不会丢失数据!