Java 结构化数据处理开源库SPL

最新推荐文章于 2024-10-05 12:07:50 发布

2401_86354206

最新推荐文章于 2024-10-05 12:07:50 发布

阅读量1.1k

点赞数 28

文章标签： java 开源开发语言

本文链接：https://blog.csdn.net/2401_86354206/article/details/141767621

版权

蜂信物联FastBee平台https://gitee.com/beecue/fastbee

阿里资料开源项目https://gitee.com/vip204888

百度低代码前端框架https://gitee.com/baidu/amis

OpenHarmony开源项目https://gitcode.com/openharmony

仓颉编程语言开放项目https://gitcode.com/Cangjie

SQL中任何一个 SELECT 语句都会产生一个新的数据结构，在代码中可以随意添加删除字段，而不必事先定义结构（类）。Java 这类语言则不行，在代码编译阶段就要把用到的结构（类）都定义好，原则上不能在执行过程中动态产生新的结构。

1.5 解释型语言

从前面几条的分析，我们已经可以得到结论：Java 本身并不适合用作结构化数据处理的语言。它的 Lambda 机制不支持特征 3，而且作为编译型语言，也不能实现特征 4。

其实，前面说到的 Lambda 语法也不太适合采用编译型语言来实现。编译器不能确定这个写到参数位置的表达式是应该当场计算出表达式的值再传递，还是把整个表达式编译成一个函数传递，需要再设计更多的语法符号加以区分。而解释型语言则没有这个问题，作为参数的表达式是先计算还是遍历集合成员时再计算，可以由函数本身来决定。

SQL确实是解释型语言。

2.引入 SPL

Stream是Java8以官方身份推出的结构化数据处理类库，但并不符合上述的要求。它没有专业的结构化数据类型，缺乏很多重要的结构化数据计算函数，不是解释型语言，不支持动态数据类型，Lambda语法的接口复杂。

Kotlin属于Java生态系统的一部分，它在Stream的基础上进行了小幅改进，也提供了结构化数据计算类型，但因为结构化数据计算函数不足，不是解释型语言，不支持动态数据类型，Lambda语法的接口复杂，仍然不是理想的结构化数据计算类库。

Scala提供了较丰富的结构化数据计算函数，但编译型语言的特点，也使它不能成为理想的结构化数据计算类库。

那么，Java生态下还有什么可以用呢？

集算器SPL。

SPL是由Java解释执行的程序语言，具备丰富的结构化数据计算类库、简单的Lambda语法和方便易用的动态数据结构，是Java下理想的结构化处理类库。

2.1 丰富的集合运算函数

SPL提供了专业的结构化数据类型，即序表。和SQL的数据表一样，序表是批量记录组成的集合，具有结构化数据类型的一般功能，下面举例说明。

解析源数据并生成序表：

Orders=T(“d:/Orders.csv”)

按列名从原序表生成新的序表：

Orders.new(OrderID, Amount, OrderDate)

计算列：

Orders.new(OrderID, Amount, year(OrderDate))

字段改名：

Orders.new(OrderID:ID, SellerId, year(OrderDate):y)

按序号使用字段：

Orders.groups(year(_5),_2; sum(_4))

序表改名（左关联）

join@1(Orders:o,SellerId ; Employees:e,EId).groups(e.Dept; sum(o.Amount))

序表支持所有的结构化计算函数，计算结果也同样是序表，而不是Map之类的数据类型。比如对分组汇总的结果，继续进行结构化数据处理：

Orders.groups(year(OrderDate):y; sum(Amount):m).new(y:OrderYear, m*0.2:discount)

在序表的基础上，SPL提供了丰富的结构化数据计算函数，比如过滤、排序、分组、去重、改名、计算列、关联、子查询、集合计算、有序计算等。这些函数具有强大的计算能力，无须硬编码辅助，就能独立完成计算：

组合查询：

Orders.select(Amount>1000 && Amount<=3000 && like(Client,“bro”))

排序：

Orders.sort(-Client,Amount)

分组汇总：

Orders.groups(year(OrderDate),Client; sum(Amount))

内关联：

join(Orders:o,SellerId ; Employees:e,EId).groups(e.Dept; sum(o.Amount))

2.2 简洁的Lambda语法

SPL支持简单的Lambda语法，无须定义函数名和函数体，可以直接用表达式当作函数的参数，比如过滤：

Orders.select(Amount>1000)

修改业务逻辑时，也不用重构函数，只须简单修改表达式：

Orders.select(Amount>1000 && Amount<2000)

SPL是解释型语言，使用参数表达式时不必明确定义参数类型，使Lambda接口更简单。比如计算平方和，想在sum的过程中算平方，可以直观写作：

Orders.sum(Amount*Amount)

和SQL类似，SPL语法也支持在单表计算时直接使用字段名：

Orders.sort(-Client, Amount)

2.3 动态数据结构

SPL是解释型语言，天然支持动态数据结构，可以根据计算结果结构动态生成新序表。特别适合计算列、分组汇总、关联这类计算，比如直接对分组汇总的结果再计算：

Orders.groups(Client;sum(Amount):amt).select(amt>1000 && like(Client,“S”))

或直接对关联计算的结果再计算：

join(Orders:o,SellerId ; Employees:e,Eid).groups(e.Dept; sum(o.Amount))

较复杂的计算通常都要拆成多个步骤，每个中间结果的数据结构几乎都不同。SPL支持动态数据结构，不必先定义这些中间结果的结构。比如，根据某年的客户回款记录表，计算每个月的回款额都在前10名的客户：

Sales2021.group(month(sellDate)).(_{.groups(Client;sum(Amount):sumValue)).(}.sort(-sumValue)) .(_{.select(#<=10)).(}.(Client)).isect()

2.4 直接执行SQL

SPL中还实现了SQL的解释器，可以直接执行SQL，从基本的WHERE、GROUP到JOIN、甚至WITH都能支持：

$select * from d:/Orders.csv where (OrderDate<date(‘2020-01-01’) and Amount<=100)or (OrderDate>=date(‘2020-12-31’) and Amount>100)

$select year(OrderDate),Client ,sum(Amount),count(1) from d:/Orders.csv

group by year(OrderDate),Client

having sum(Amount)<=100

$select o.OrderId,o.Client,e.Name e.Dept from d:/Orders.csv o

join d:/Employees.csv e on o.SellerId=e.Eid

$with t as (select Client ,sum(amount) s from d:/Orders.csv group by Client)

select t.Client, t.s, ct.Name, ct.address from t

left join ClientTable ct on t.Client=ct.Client

3.更多语言优势

作为专业的结构化数据处理语言，SPL不仅覆盖了SQL的所有计算能力，在语言方面，还有更强大的优势：

3.1 离散性及其支挂下的更彻底的集合化

集合化是SQL的基本特性，即支持数据以集合的形式参与运算。但SQL的离散性很不好，所有集合成员必须作为一个整体参于运算，不能游离在集合之外。而Java等高级语言则支持很好的离散性，数组成员可以单独运算。

但是，更彻底的集合化需要离散性来支持，集合成员可以游离在集合之外，并与其它数据随意构成新的集合参与运算。

SPL兼具了SQL的集合化和Java的离散性，从而可以实现更彻底的集合化。

比如，SPL中很容易表达“集合的集合”，适合分组后计算。比如，找到各科成绩均在前10名的学生：

| | A |

| — | — |

| 1 | =T(“score.csv”).group(subject) |

| 2 | =A2.(.rank(score).pselect@a(<=10)) |

| 3 | =A1.(~(A3(#)).(name)).isect() |

| SPL序表的字段可以存储记录或记录集合，这样可以用对象引用的方式，直观地表达关联关系，即使关系再多，也能直观地表达。比如，根据员工表找到女经理下属的男员工： | |

Employees.select(性别:“男”,部门.经理.性别:“女”)

有序计算是离散性和集合化的典型结合产物，成员的次序在集合中才有意义，这要求集合化，有序计算时又要将每个成员与相邻成员区分开，会强调离散性。SPL兼具集合化和离散性，天然支持有序计算。

具体来说，SPL可以按绝对位置引用成员，比如，取第3条订单可以写成Orders(3)，取第1、3、5条记录可以写成Orders([1,3,5])。

SPL也可以按相对位置引用成员，比如，计算每条记录相对于上一条记录的金额增长率：Orders.derive(amount/amount[-1]-1)

SPL还可以用#代表当前记录的序号，比如把员工按序号分成两组，奇数序号一组，偶数序号一组：Employees.group(#%2==1)

3.2 更方便的函数语法

大量功能强大的结构化数据计算函数，这本来是一件好事，但这会让相似功能的函数不容易区分。无形中提高了学习难度。

最后总结

搞定算法，面试字节再不怕，有需要文章中分享的这些二叉树、链表、字符串、栈和队列等等各大面试高频知识点及解析

最后再分享一份终极手撕架构的大礼包(学习笔记)：分布式+微服务+开源框架+性能优化

订单可以写成Orders(3)，取第1、3、5条记录可以写成Orders([1,3,5])。