大数据最全开源 SPL 打破数据库计算的封闭性_spl数据库，腾讯大数据开发开发面试经验

2401_84616088

于 2024-05-11 20:48:12 发布

阅读量1k

点赞数 24

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84616088/article/details/138729526

版权

程序员专栏收录该内容

50 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

把外部数据存储在数据库中，又会形成众多中间表，面临中间表的各种问题。而且有些互联网上取过来的数据常常是多层的 json 或 XML 格式，在关系数据库中还要建立多个关联的表来存储，会进一步加剧中间表的问题。

存储过程带来的安全和耦合问题

除了中间表，还经常会使用存储过程，虽然存储过程缺点很多（缺乏移植性、编写调试困难等）。为什么会这样呢？由于数据库计算必须在封闭的库内完成，但有些复杂计算通过一句SQL很难实现，而存储过程支持分步计算，且可以利用数据库计算能力，因此大家不得不容忍其缺点。

查询分析类的存储过程是需要经常修改的，由于存储过程与数据库紧密结合，如果程序员每次修改存储过程代码，都要提交给数据库管理员去审核编译，多了环节无疑会降低工作效率。要么给程序员赋予编译存储过程的权限，这样倒是提高效率了，但存在严重的安全隐患，因为编译存储过程的权限过大，程序员有可能误删数据，甚至删除其他应用的数据。其实，查询报表类业务只需要有读权限就可以了，本来不会对数据库造成误写入，但使用存储过程机制却无法避免。

不仅如此，存储过程也会造成应用间的紧耦合，其内在原因和中间表是一致的，同一个存储过程被多个应用（模块）共用导致应用间的耦合性。

大数据性能导致的尴尬

随着业务的发展数据量越来越大，查询性能随之下降，严重时还会影响生产系统。为了保证业务稳定性通常会数据分库，将历史冷数据和当期热数据分库存储，实现冷热数据分离。查询大量冷数据时不会影响生产系统，查询热数据由于数据量很小也不会对生产系统造成很大压力。

但是，冷热数据分离会导致很难完成实时数据（T+0）查询。数据库的封闭体系不允许或很难计算库外的数据，包括跨库查询。而冷热数据分离后，要查询实时数据又必须跨库。同类数据库还有一些跨库查询的手段，虽然性能很差但至少还可以实现。而实际业务中冷热数据存储的数据库类型往往并不一致，热数据在生产系统中更多使用擅长OLTP业务的RDB，而冷数据经常会采用专门面向OLAP业务的数据仓库。跨异构库查询对数据库来说就更加难以实现了。

数据库封闭性引发的这些问题会伴随技术进步不断放大，传统“有库”的方式似乎越来越难适应现代应用架构的需要。

开源集算器SPL的出现，将解决这些问题。

SPL（Structured Process Language）是专业的结构化数据计算引擎，提供了丰富的计算类库，支持过程计算，擅长完成各类复杂计算。开放计算体系支持多数据源混合计算，数据无需“入库”就可以直接计算，SPL支持热切换，提供标准JDBC接口。