2024年最全【云原生】开源数据分析 SPL 轻松应对 T+0_开源spl，作为Java程序员

最新推荐文章于 2024-05-11 20:48:12 发布

2301_82244343

最新推荐文章于 2024-05-11 20:48:12 发布

阅读量769

点赞数 8

分类专栏：程序员文章标签：云原生开源数据分析

本文链接：https://blog.csdn.net/2301_82244343/article/details/138550256

版权

程序员专栏收录该内容

358 篇文章 0 订阅

订阅专栏

总结

在这里，由于面试中MySQL问的比较多，因此也就在此以MySQL为例为大家总结分享。但是你要学习的往往不止这一点，还有一些主流框架的使用，Spring源码的学习，Mybatis源码的学习等等都是需要掌握的，我也把这些知识点都整理起来了

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

可以借助开源SPL可以实现这些目标。SPL是一款开源数据计算引擎，提供了大量结构化数据计算函数并拥有完备计算能力，支持多数据源混合计算，可以同时连接存储热数据的业务库和存储冷数据的历史库完成全量数据T+0查询。

由于具备独立且完善的计算能力，SPL可以分别从不同的数据库取数计算，因此可以很好适应异构数据库的情况，还可以根据数据库的资源状况决定计算是在数据库还是SPL中实施，非常灵活。在计算实现上，SPL的敏捷语法与过程计算可以大大简化T+0查询中的复杂计算，提升开发效率，SPL解释执行支持热部署。更进一步，依托SPL的强计算能力还可以完成冷热数据分离时的ETL任务。

SPL还提供了自有的高性能二进制文件存储，对性能要求较高时可以将历史冷数据使用文件存储，再借助SPL的高性能算法与并行计算来提升查询效率。此外，SPL封装了标准应用接口（JDBC/ODBC/RESTful）供应用集成调用，也可以将SPL嵌入应用中使用，这样应用就轻松具备了T+0查询与复杂数据处理能力，将计算和存储分离也更符合当代应用架构的需要。

冷热混合计算

对于常见的冷热分库T+0查询场景，SPL实现很简单，这里看一个例子。


	A	B
1	=[[connect@l(“oracle”),“ORACLE”],[connect@l(“mysql”),“MYSQL”]]
2	=SQL=“select month(orderdate) ordermonth,sellerid,sum(amount) samount,count(amount) camount from sales group by month(orderdate),sellerid”
3	fork A1	=SQL.sqltranslate(A3(2))
4		=A3(1).query(B3)
5	=A3.conj().groups(ordermonth,sellerid;sum(samount):totalamount,sum(camount):totalcount)

本例中，Oracle作为生产库存储当期热数据，MySQL存储历史冷数据。前端传入一句标准SQL（A2），再借助SPL的转换功能将标准SQL转换成对应数据库的语法（B3）并发给数据库查询（B4），最后归并结果进行最后的汇总运算（A5）。这里使用了多线程并行方式（A3）同时执行两个SQL，效率更高。

在这里，SPL不仅完成了两个数据库的跨库查询，还提供了SQL转换方法，更利于前端应用使用，同时拥有合并两个数据库计算结果后的继续计算能力，本例是分组汇总。SPL还有更丰富的结构化数据对象及其上的丰富运算，除了分组汇总、循环分支、排序过滤、集合运算等基础计算外，位置计算、排序排名、不规则分组也不在话下。

除了RDB，对于有些场景涉及的NoSQL、Hadoop等数据源也能支持，SPL具备多源混算能力，无论基于何种数据源都可以进行混合查询实现T+0。比如MongoDB与MySQL混合查询：


	A
1	=mongo_open(“mongodb://127.0.0.1:27017/mongo”)
2	=mongo_shell(A1,“Orders.find()”)
3	=A2.new(Orders.OrderID:orderid,Orders.Client:client,Dept:dept,Amount:amount).fetch()
4	=mongo_close(A1)
5	=mysql.query@x(“select ordered,client,dept,amount from orders”)
6	=[A3,A5].conj()
7	…后续计算

SPL的计算能力还能用于ETL，将生产数据转移到历史库中，还经常伴随一些转换计算，这些都可以使用SPL来完成。比如出于某些原因，要将生产数据某些编码字段通过某个对照表转换成另一种编码（遵守一致性的编码规则、整理数据类型获得更好性能等），而对照表通常并不会存在生产库中，而不能直接在生产库中计算好，这就涉及多数据源计算了。


	A
1	>source=connect@l(“oracle”),target=connect@l(“mysql”)
2	=source.cursor(“select * from orders”)
3	=target.query(“select oldCode,newCode from codeComp”).keys@i(oldcode)
4	=A2.run(pid=A3.find(pid).newcode)
5	>target.execute(A2,"insert into orders values(?,?,?,?,?) ",#1,#2,#3,#4,#5)
6	>source.close(),target.close()

高性能

历史冷数据量可能很大，使用RDB存储容易受到资源容量等因素限制，而且数据读取效率很差。相比下文件存储具备很多优势，不仅读取效率更高，还可以有效利用并行、文件压缩等机制提速，同时也不会像数据库容易受到容量的限制。不过开放的文本格式使用效率不高（无压缩、解析数据类型慢等），一般会使用二进制格式文件。另外，文件存储的最大问题是没有计算能力，不像数据库使用SQL可以很方便完成数据处理，通过硬编码处理的难度很大。

这些问题都可以通过SPL来解决，SPL提供了两种高性能二进制数据存储格式集文件和组表，再借助SPL的独立计算能力可以直接基于文件和数据库混合计算实现高效T+0查询。比如前面的例子，可以使用SPL文件存储历史冷数据与生产库热数据混合查询。


	A
1	=connect(“oracle”)
2	=A1.query@x(“select sellerid, sum(amount) totalamount, count(amount) countamount,max(amount) maxamount,min(amount) minamount from sales group by sellerid”)
3	=file(“his_sales.btx”).cursor@b()
4	=A3.groups(sellerid;sum(amount):totalamount,count(amount):countamount,max(amount):maxamount,min(amount):minamount)
5	=[A3,A4].conj().groups(sellerid;sum(totalamount):totalamount,sum(countamount):countamount,max(maxamount):maxamount,min(minamount):minamount)

将历史数据存储在文件后与生产库混合查询，历史数据使用游标可以支持大数据场景，A4针对文件游标进行分组汇总，A5归并数据并汇总分组结果。这里使用了SPL提供的二进制集文件（btx），相对文本更加高效。集文件采用了压缩技术（占用空间更小读取更快），存储了数据类型（无需解析数据类型读取更快），支持可追加数据的倍增分段机制，利用分段策略很容易实现并行计算，保证计算性能。

SPL还支持各种高性能算法。比如常见的TopN运算，在SPL中TopN被理解为聚合运算，这样可以将高复杂度的排序转换成低复杂度的聚合运算，而且很还能扩展应用范围。

SPL还有另外一种支持列存的高效存储形式组表，在参与计算的列数（字段）较少时会有巨大优势。组表上还实现了minmax索引，也支持倍增分段，这样不仅能享受到列存的优势，也更容易并行提升计算性能。


	A
1	=file(“data.ctx”).create().cursor()
2	=A1.groups(;top(10,amount))	金额在前10名的订单
3	=A1.groups(area;top(10,amount))	每个地区金额在前10名的订单