【云原生】开源数据分析 SPL 轻松应对 T+0

葬心啊

于 2022-07-28 21:30:55 发布

阅读量246

点赞数

分类专栏：面试学习路线阿里巴巴文章标签： android 前端后端

本文链接：https://blog.csdn.net/m0_54849873/article/details/126044427

版权

本文探讨了T+0查询在大数据量下的挑战，即如何在不干扰生产交易的情况下进行实时数据查询。通过引入开源数据分析语言SPL，文章详细介绍了SPL如何通过冷热混合计算、高性能特性和易集成性，有效地应对T+0问题。SPL支持多数据源混合计算、提供SQL转换、具备独立计算能力，并能与多种数据库和文件格式结合，实现高效、灵活的T+0查询解决方案。

摘要由CSDN通过智能技术生成

T+0问题

T+0查询是指实时数据查询，数据查询统计时将涉及到最新产生的数据。在数据量不大时，T+0很容易完成，直接基于生产数据库查询就可以了。但是，当数据量积累到一定程度时，在生产库中进行大数据量的查询会消耗过多的数据库资源，严重时会影响交易业务，这就不能接受了，毕竟生产交易是更关键的任务。所以，我们常常会把大量用于查询分析的历史数据从生产库中分离出去，使用单独的数据库存储和查询，以保证查询统计不会影响生产业务，这就是常说的冷热数据分离。

在这里插入图片描述

数据分离后就会产生T+0问题。数据拆分到两个数据库中，要查询全量数据就涉及跨库查询。而且，我们知道，用于交易的生产库大多使用能够保证事务一致性的RDB，而分离出来的冷数据（量大且不再修改）则会更多使用专门的分析型数据库或数据平台存储，即使是关系数据库也很可能与原来的生产库类型不同，这就不仅涉及跨库，还需要跨异构库（源）查询。遗憾的是，当前实现跨库查询的技术都存在这样那样的问题。

数据库自身的跨库查询功能（如Oracle的DBLink、MSSQL的Linked Server、MySQL的FEDERATED、等）通常是将远程数据库的数据拉到本地，再在本地完成包括过滤在内的大部分计算，整个过程十分低效。不仅如此，这种方式还存在数据传输不稳定、不支持大对象操作、可扩展性低等很多不足。

事实上，要解决分库后的T+0查询问题也并非难事，只要有具备这样一些能力的计算引擎就可以实现：能够对接多种数据源；拥有不依赖数据库的完善计算能力以完成多库数据归集后的数据计算工作；还可以利用数据库（源）的能力充分发挥数据库的效能；提供简单的数据计算接口；性能相对理想等。

除了数据库自身的跨库查询能力，使用高级语言硬编码也可以完成跨库查询，毕竟没有什么问题不是硬编码解决不了的。这种方式虽然灵活，但使用难度却很大，尤其对于当前大部分应用的开发语言Java来说，缺少足够的结构化数据计算类库使得完成跨库查询后的计算很难完成，通常只能做简单的列表式查询，而涉及到统计汇总类的运算就会异常麻烦。