Java 嵌入数据引擎：从 SQLite 到 SPL_java sqlite 插入大量数据(3)

2401_84182020

于 2024-05-06 11:39:38 发布

阅读量630

点赞数 14

分类专栏：程序员文章标签： java sqlite jvm

本文链接：https://blog.csdn.net/2401_84182020/article/details/138489207

版权

程序员专栏收录该内容

153 篇文章 0 订阅

订阅专栏

文章介绍了覆盖95%大数据知识点的学习资源，包括针对不同水平的课程、详细的大厂面经和esProcSPL作为高效数据处理工具的优点，强调了其在SQL替代、数据加载和复杂计算方面的优势。

摘要由CSDN通过智能技术生成

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

以加载RDB数据源为例，一般的做法是先用Java执行命令行，把RDB库表转为csv；再用JDBC访问SQLite，创建表结构；之后用Java执行命令行，将csv文件导入SQLite；最后为新表建索引，以提高性能。这个方法比较死板，如果想灵活定义表结构和表名，或通过计算确定加载的数据，代码就更难写了。

类似地，对于其他数据源，SQLite也不能直接加载，同样要通过繁琐地转换过程才可以。

SQL接近自然语言，学习门槛低，容易实现简单的计算，但不擅长复杂的计算，比如复杂的集合计算、有序计算、关联计算、多步骤计算。SQLite采用SQL语句做计算，SQL优点和缺点都会继承下来，勉强实现这些复杂计算的话，代码会显得繁琐难懂。

比如，某只股票最长的上涨天数，SQL要这样写：

select max(continuousDays)-1
from (select count(*) continuousDays
from (select sum(changeSign) over(order by tradeDate) unRiseDays
from (select tradeDate,
case when price>lag(price) over(order by tradeDate) then 0 else 1 end changeSign from AAPL) )
group by unRiseDays)

这也不单是SQLite的难题，事实上，由于集合化不彻底、缺乏序号、缺乏对象引用等原因，其他SQL数据库也不擅长这些运算。

业务逻辑由结构化数据计算和流程控制组成，SQLite支持SQL，具有结构化数据计算能力，但SQLite没有提供存储过程，不具备独立的流程控制能力，也就不能实现一般的业务逻辑，通常要利用Java主程序的判断和循环语句。由于Java没有专业的结构化数据对象来承载SQLite数据表和记录，转换过程麻烦，处理过程不畅，开发效率不高。

前面提过，SQLite内核是C程序，虽然可以被集成到Java应用中，但并不能和Java无缝集成，和Java主程序交换数据时要经过耗时的转换才能完成，在涉及数据量较大或交互频繁时性能就会明显不足。同样因为内核是C程序，SQLite会在一定程度上破坏Java架构的一致性和健壮性。

对于Java应用来讲，原生在JVM上的esProc SPL是更好的选择。

SPL全面支持各种数据源

esProc SPL是JVM下开源的嵌入数据引擎，架构简单，可直接加载数据源，可以通过JDBC接口被Java集成调用，并方便地进行后续计算。

SPL架构简单，无须独立服务，只要引入SPL的Jar包，就可以部署在Java环境中。

直接加载数据源，代码简短，过程简单，时效性强。比如加载Oracle：


	A
1	=connect(“orcl”)
2	=A1.query@x(“select OrderID,Client,SellerID,OrderDate,Amount from orders order by OrderID”)
3	>env(orders,A2)

对于SQLite擅长加载的csv文件，SPL也可以直接加载，使用内置函数而不是外部命令行，稳定且效率高，代码更简短：

=T("/Users/scudata/somedata.csv")

多种外部数据源。除了RDB和csv，SPL还直接支持txt\xls等文件，MongoDB、Hadoop、redis、ElasticSearch、Kafka、Cassandra等NoSQL，以及WebService XML、Restful Json等多层数据。比如，将HDSF里的文件加载到内存：


	A
1	=hdfs_open(;“hdfs://192.168.0.8:9000”)
2	=hdfs_file(A1,“/user/Orders.csv”:“GBK”)
3	=A2.cursor@t()
4	=hdfs_close(A1)
5	>env(orders,A4)

JDBC接口可以方便地集成。加载的数据量一般比较大，通常在应用的初始阶段运行一次，只须将上面的加载过程存为SPL脚本文件，在Java中以存储过程的形式引用脚本文件名：

Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
CallableStatement statement = conn.prepareCall("{call init()}");
statement.execute();

SPL的计算能力更强大

SPL提供了丰富的计算函数，可以轻松实现日常计算。SPL支持多种高级语法，大量的日期函数和字符串函数，很多用SQL难以表达的计算，用SPL都可以轻松实现，包括复杂的有序计算、集合计算、分步计算、关联计算，以及带流程控制的业务逻辑。

丰富的计算函数。SPL可以轻松实现各类日常计算：


	A	B
1	=Orders.find(arg_OrderIDList)	//多键值查找
2	=Orders.select(Amount>1000 && like(Client,“S”))	//模糊查询
3	= Orders.sort(Client,-Amount)	//排序
4	= Orders.id(Client)	//去重
5	=join(Orders:O,SellerId; Employees:E,EId).new(O.OrderID, O.Client,O.Amount,E.Name,E.Gender,E.Dept)	//关联

标准SQL语法。SPL也提供了SQL-92标准的语法，比如分组汇总：

$select year(OrderDate) y,month(OrderDate) m, sum(Amount) s,count(1) c
from {Orders}
Where Amount&gt;=? and Amount&lt;? ;arg1,arg2

函数选项、层次参数等方便的语法。功能相似的函数可以共用一个函数名，只用函数选项区分差别，比SQL更加灵活方便。比如select函数的基本功能是过滤，如果只过滤出符合条件的第1条记录，可使用选项@1：

T.select@1(Amount>1000)

二分法排序，即对有序数据用二分法进行快速过滤，使用@b：

T.select@b(Amount>1000)

有序分组，即对分组字段有序的数据，将相邻且字段值相同的记录分为一组，使用@b：

T.groups@b(Client;sum(Amount))

函数选项还可以组合搭配，比如：

Orders.select@1b(Amount>1000)

结构化运算函数的参数有些很复杂，比如SQL就需要用各种关键字把一条语句的参数分隔成多个组，但这会动用很多关键字，也使语句结构不统一。SPL使用层次参数简化了复杂参数的表达，即通过分号、逗号、冒号自高而低将参数分为三层：

join(Orders:o,SellerId ; Employees:e,EId)

更丰富的日期和字符串函数。除了常见函数，比如日期增减、截取字符串，SPL还提供了更丰富的日期和字符串函数，在数量和功能上远远超过了SQL，同样运算时代码更短。比如：

季度增减：elapse@q(“2020-02-27”,-3) //返回2019-05-27

N个工作日之后的日期：workday(date(“2022-01-01”),25) //返回2022-02-04

字符串类函数，判断是否全为数字：isdigit(“12345”) //返回true

取子串前面的字符串：substr@l(“abCDcdef”,“cd”) //返回abCD

按竖线拆成字符串数组：“aa|bb|cc”.split(“|”) //返回[“aa”,“bb”,“cc”]

SPL还支持年份增减、求季度、按正则表达式拆分字符串、拆出SQL的where或select部分、拆出单词、按标记拆HTML等大量函数。

简化有序运算。涉及跨行的有序运算，通常都有一定的难度，比如比上期和同期比。SPL使用"字段[相对位置]"引用跨行的数据，可显著简化代码，还可以自动处理数组越界等特殊情况，比SQL窗口函数更加方便。比如，追加一个计算列rate，计算每条订单的金额增长率：

=T.derive(AMOUNT/AMOUNT[-1]-1: rate)

综合运用位置表达式和有序函数，很多SQL难以实现的有序运算，都可以用SPL轻松解决。比如，根据考勤表，找出连续 4 周每天均出勤达 7 小时的学生：


	A
1	=Student.select(DURATION>=7).derive(pdate@w(ATTDATE):w)
2	=A1.group@o(SID;_{.groups@o(W;count(}):CNT).select(CNT==7).group@i(W-W[-1]!=7).max(~.len()):weeks)
3	=A2.select(weeks>=4).(SID)

简化集合运算，SPL的集合化更加彻底，配合灵活的语法和强大的集合函数，可大幅简化复杂的集合计算。比如，在各部门找出比本部门平均年龄小的员工：


	A
1	=Employees.group(DEPT; (a=_{.avg(age(BIRTHDAY)),}.select(age(BIRTHDAY)<a)):YOUNG)
2	=A1.conj(YOUNG)

计算某支股票最长的连续上涨天数：


	A
1	=a=0,AAPL.max(a=if(price>price[-1],a+1,0))

简化关联计算。SPL支持对象引用的形式表达关联，可以通过点号直观地访问关联表，避免使用JOIN导致的混乱繁琐，尤其适合复杂的多层关联和自关联。比如，根据员工表计算女经理的男员工：

=employees.select(gender:"male",dept.manager.gender:"female")

方便的分步计算，SPL集合化更加彻底，可以用变量方便地表达集合，适合多步骤计算，SQL要用嵌套表达的运算，用SPL可以更轻松实现。比如，找出销售额累计占到一半的前n个大客户，并按销售额从大到小排序：


	A	B

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

67042)]
[外链图片转存中…(img-6c2wjrI8-1714966767042)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

2401_84182020

关注

14
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录