【云原生】开源数据分析 SPL 轻松应对 T+0_开源spl

2401_84166965

于 2024-04-28 08:45:12 发布

阅读量571

点赞数 10

分类专栏：程序员文章标签：开源数据分析数据挖掘

本文链接：https://blog.csdn.net/2401_84166965/article/details/138266538

版权

程序员专栏收录该内容

179 篇文章 0 订阅

订阅专栏

本例中，Oracle作为生产库存储当期热数据，MySQL存储历史冷数据。前端传入一句标准SQL（A2），再借助SPL的转换功能将标准SQL转换成对应数据库的语法（B3）并发给数据库查询（B4），最后归并结果进行最后的汇总运算（A5）。这里使用了多线程并行方式（A3）同时执行两个SQL，效率更高。

在这里，SPL不仅完成了两个数据库的跨库查询，还提供了SQL转换方法，更利于前端应用使用，同时拥有合并两个数据库计算结果后的继续计算能力，本例是分组汇总。SPL还有更丰富的结构化数据对象及其上的丰富运算，除了分组汇总、循环分支、排序过滤、集合运算等基础计算外，位置计算、排序排名、不规则分组也不在话下。

除了RDB，对于有些场景涉及的NoSQL、Hadoop等数据源也能支持，SPL具备多源混算能力，无论基于何种数据源都可以进行混合查询实现T+0。比如MongoDB与MySQL混合查询：


	A
1	=mongo_open(“mongodb://127.0.0.1:27017/mongo”)
2	=mongo_shell(A1,“Orders.find()”)
3	=A2.new(Orders.OrderID:orderid,Orders.Client:client,Dept:dept,Amount:amount).fetch()
4	=mongo_close(A1)
5	=mysql.query@x(“select ordered,client,dept,amount from orders”)
6	=[A3,A5].conj()
7	…后续计算

SPL的计算能力还能用于ETL，将生产数据转移到历史库中，还经常伴随一些转换计算，这些都可以使用SPL来完成。比如出于某些原因，要将生产数据某些编码字段通过某个对照表转换成另一种编码（遵守一致性的编码规则、整理数据类型获得更好性能等），而对照表通常并不会存在生产库中，而不能直接在生产库中计算好，这就涉及多数据源计算了。


	A
1	>source=connect@l(“oracle”),target=connect@l(“mysql”)
2	=source.cursor(“select * from orders”)
3	=target.query(“select oldCode,newCode from codeComp”).keys@i(oldcode)
4	=A2.run(pid=A3.find(pid).newcode)
5	>target.execute(A2,"insert into orders values(?,?,?,?,?) ",#1,#2,#3,#4,#5)
6	>source.close(),target.close()

高性能

历史冷数据量可能很大，使用RDB存储容易受到资源容量等因素限制，而且数据读取效率很差。相比下文件存储具备很多优势，不仅读取效率更高，还可以有效利用并行、文件压缩等机制提速，同时也不会像数据库容易受到容量的限制。不过开放的文本格式使用效率不高（无压缩、解析数据类型慢等），一般会使用二进制格式文件。另外，文件存储的最大问题是没有计算能力，不像数据库使用SQL可以很方便完成数据处理，通过硬编码处理的难度很大。

这些问题都可以通过SPL来解决，SPL提供了两种高性能二进制数据存储格式集文件和组表，再借助SPL的独立计算能力可以直接基于文件和数据库混合计算实现高效T+0查询。比如前面的例子，可以使用SPL文件存储历史冷数据与生产库热数据混合查询。


	A
1	=connect(“oracle”)
2	=A1.query@x(“select sellerid, sum(amount) totalamount, count(amount) countamount,max(amount) maxamount,min(amount) minamount from sales group by sellerid”)
3	=file(“his_sales.btx”).cursor@b()
4	=A3.groups(sellerid;sum(amount):totalamount,count(amount):countamount,max(amount):maxamount,min(amount):minamount)
5	=[A3,A4].conj().groups(sellerid;sum(totalamount):totalamount,sum(countamount):countamount,max(maxamount):maxamount,min(minamount):minamount)

将历史数据存储在文件后与生产库混合查询，历史数据使用游标可以支持大数据场景，A4针对文件游标进行分组汇总，A5归并数据并汇总分组结果。这里使用了SPL提供的二进制集文件（btx），相对文本更加高效。集文件采用了压缩技术（占用空间更小读取更快），存储了数据类型（无需解析数据类型读取更快），支持可追加数据的倍增分段机制，利用分段策略很容易实现并行计算，保证计算性能。

SPL还支持各种高性能算法。比如常见的TopN运算，在SPL中TopN被理解为聚合运算，这样可以将高复杂度的排序转换成低复杂度的聚合运算，而且很还能扩展应用范围。

SPL还有另外一种支持列存的高效存储形式组表，在参与计算的列数（字段）较少时会有巨大优势。组表上还实现了minmax索引，也支持倍增分段，这样不仅能享受到列存的优势，也更容易并行提升计算性能。


	A
1	=file(“data.ctx”).create().cursor()
2	=A1.groups(;top(10,amount))	金额在前10名的订单
3	=A1.groups(area;top(10,amount))	每个地区金额在前10名的订单

这里的语句中没有排序字样，也不会产生大排序的动作，在全集还是分组中计算TopN的语法基本一致，而且都会有较高的性能，类似的算法在SPL中还有很多。

SPL也很容易实施并行计算，发挥多CPU的优势。SPL有很多计算函数都提供并行机制，如文件读取、过滤、排序只要增加一个@m选项就可以自动实施并行计算，简单方便。

易集成

SPL封装了标准JDBC和ODBC接口供应用调用，特别对于Java应用可以将SPL嵌入应用内使用，T+0查询能力在应用端实现，不再依赖数据源，这样可以充分解耦应用与数据源，获得很好的移植性和可扩展性。

JDBC调用SPL 代码示例：

Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
Statement st = connection.();
CallableStatement st = conn.prepareCall("{call splscript(?, ?)}");
st.setObject(1, 3000);
st.setObject(2, 5000);
ResultSet result=st.execute();

SPL是解释执行的，天然支持热切换。基于SPL的数据计算逻辑编写、修改后不需要重启，实时生效，使开发运维更加便捷。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

需要这份系统化资料的朋友，可以戳这里获取

2401_84166965

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【云原生】开源数据分析 SPL 轻松应对 T+0_开源spl

本例中，Oracle作为生产库存储当期热数据，MySQL存储历史冷数据。前端传入一句标准SQL（A2），再借助SPL的转换功能将标准SQL转换成对应数据库的语法（B3）并发给数据库查询（B4），最后归并结果进行最后的汇总运算（A5）。这里使用了多线程并行方式（A3）同时执行两个SQL，效率更高。在这里，SPL不仅完成了两个数据库的跨库查询，还提供了SQL转换方法，更利于前端应用使用，同时拥有合并两个数据库计算结果后的继续计算能力，本例是分组汇总。
复制链接

扫一扫