Java有什么开源包能做类似SQL运算的?

所谓类似SQL的运算,专业点的说法是结构化数据运算,也就是过滤、分组、排序、连接等等。JAVA上做这种运算的开源包挺多的,但好用的真不多。Stream是亲儿子,但计算能力不行。Scala计算能力还行,但重点搞的是大数据,架构有点复杂,不容易被JAVA调用。还有一大堆模仿Python Pandas的开源包,以及对着文件写SQL的开源包,就没有一个成熟稳定的。

成熟稳定,计算能力强,架构简单,又能被方便调用的开源包,似乎就只有这个了:集算器 SPL

SPL实现这些结构化数据处理很方便,比如读取Orders.txt的全部记录:

…    Class.forName("com.esproc.jdbc.InternalDriver");Connection connection   =DriverManager.getConnection("jdbc:esproc:local://");Statement statement =   connection.createStatement();String str="=T(\"D:/data/Orders.txt\")";ResultSet result =   statement.executeQuery(str);…

一个T(…)就搞定了。

基本的结构化数据计算方面, SPL提供了大量函数,拿来就能直接用:

//条件查询str="=T(\"D:/data/Orders.txt\").select(Amount>1000   && Amount<=3000 && like(Client,\"*S*\"))";//排序str ="=T(\"D:/data/Orders.txt\").sort(Client,-Amount)";//分组汇总str ="=T(\"D:/data/Orders.txt\").groups(year(OrderDate);sum(Amount))";//关联str ="=join(T (\"D:/data/Orders.txt\"):O,SellerId;   T(\"D:/data/Employees.txt\"):E,EId).new(O.OrderID,O.Client,O.SellerId,O.Amount,O.OrderDate,   E.Name,E.Gender,E.Dept)";

这些是SPL自己的语法,对于熟悉SQL的程序员,集算器也提供了对应的SQL语法,比如分组汇总也可以写作下面这样:

str="$SELECTyear(OrderDate),sum(Amount) fromOrders.txt groupbyyear(OrderDate)  "

这些例子都是以文件作为数据源,当然SPL也可以访问各种数据库以及NoSQL甚至Restful数据源。


SPL脚本可以像上面那样内嵌于JAVA代码(类似SQL);遇到步骤较多,可能频繁修改,需要降低耦合性的运算,SPL脚本也可以外置于脚本文件(类似存储过程)。比如:找出销售额累计占到一半的前n个大客户,并按销售额从大到小排序。先将SPL脚本存为文件:


AB
1= T("D:/data/sales.csv").sort(amount:-1) 取数并逆序排序
2=A1.cumulate(amount)计算累计序列
3=A2.m(-1)/2累计值即是总和
4=A2.pselect(~>=A3)超过一半的位置
5=A1(to(A4))按位置取值

再在JAVA代码中以存储过程的方式调用脚本文件:

…Class.forName("com.esproc.jdbc.InternalDriver");Connection connection   =DriverManager.getConnection("jdbc:esproc:local://");Statement statement =   connection.createStatement();ResultSet result =   statement.executeQuery("call bigCustomer ()");...

有些运算逻辑比较复杂,用scala或数据库都比较难写,而SPL提供了更丰富的计算函数和语法,可以大幅简化复杂运算逻辑。比如:计算某支股票最长的连续上涨天数,SPL只需两行:


AB
1=T("d:/AAPL.xlsx")读Excel文件,首行 为列名
2=a=0,A1.max(a=if(price>price[-1],a+1,0))求最长连续上涨天数

除了降低耦合性,脚本外置还允许程序员使用专用的IDE进行编辑调试。SPL IDE具备完整调试功能,可随时观察每一步的计算结果,擅长设计逻辑更复杂的计算:

4714e745094bc7c32d0a4d430feebec9.png

在结构化数据运算方面,集算器SPL明显比其它开源包更胜一筹,在数据源种类、跨源计算、大数据和并行计算等方面,集算器SPL也均有出色表现,这里不再详细展开。


开源SPL讨论

074d7a3ba4a4f84a118aa8f23633df90.png

对开源SPL感兴趣的朋友,
请扫码添加小助手进群参与讨论
微信号|SPL-helper

 · SPL小助手 · 

感兴趣的朋友请转到阅读原文去收藏 ^_^

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值