![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
开源SPL数据处理实战
文章平均质量分 93
SPL 全称为 Structured Process Language,结构化数据处理语言。目标是解决结构化数据处理中的两个问题:计算难和计算慢。我们处理数据通常都要编程序来做,SPL 也是一种程序语言,那么,也可以说 SPL 的目标是让程序容易写(Make Programming Easy)和让程
java李杨勇
专注于大学生项目实战开发,讲解,毕业答疑辅导,高校老师/讲师/同行合作。以及产品测评宣传、工具推广等合作。全网粉丝30万+,CSDN特邀博主,Java新星计划多届导师,掘金/知乎/华为云/阿里云/51CTO等平台优质创作者。
展开
-
多标签用户画像分析跑得快的关键在哪里?
用户画像分析需要使用众多标签来描述用户属性,通常有两类标签。一类用户标签的值可能有多个,比如用户学历是中学、大学、研究生、博士等,年龄段是children、juvenile、youth、middle age、old age,这类标签称为枚举标签。另一类用户标签的值只有两个,比如用户是否注册、是否活跃、是否白领、是否某种促销的目标用户等等,这类标签称为二值标签。原创 2022-11-21 09:18:44 · 9089 阅读 · 68 评论 -
【云原生】开源数据分析 SPL 轻松应对 T+0
T+0查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。在数据量不大时,T+0很容易完成,直接基于生产数据库查询就可以了。但是,当数据量积累到一定程度时,在生产库中进行大数据量的查询会消耗过多的数据库资源,严重时会影响交易业务,这就不能接受了,毕竟生产交易是更关键的任务。所以,我们常常会把大量用于查询分析的历史数据从生产库中分离出去,使用单独的数据库存储和查询,以保证查询统计不会影响生产业务,这就是常说的冷热数据分离。............原创 2022-07-13 08:21:37 · 16646 阅读 · 57 评论 -
Java 结构化数据处理开源库 SPL
前言介绍: 现代Java应用架构越来越强调数据存储和处理分离,以获得更好的可维护性、可扩展性以及可移植性,比如火热的微服务就是一种典型。这种架构通常要求业务逻辑要在Java程序中实现,而不是像传统应用架构中放在数据库中。应用中的业务逻辑大都会涉及结构化数据处理。数据库(SQL)中对这类任务有较丰富的支持,可以相对简易地实现业务逻辑。但Java却一直缺乏这类基础支持,导致用Java实现业务逻辑非常繁琐低效。结果,虽然架构上有各种优势,但开发效率却反而大幅下降了。如果我们在Jav........原创 2022-03-16 08:16:03 · 7119 阅读 · 26 评论 -
搞 AI 建模预测都在用 Python,其实入门用 SPL 也不错
可以用来做人工智能建模预测的工具非常多,比如Python, R, SAS,SPSS等,其中Python由于简单易学、丰富的数据科学库、开源免费等特点备受欢迎。但是对于不太熟悉数据建模算法的程序员来说,使用Python建模还是比较复杂,很多时候拿到数据并不清楚该做怎样的处理,选择什么样的算法。其实,在做数据分析和数据建模时,SPL也是不错的选择,它比Python更简单易用,计算速度也快,交互式的界面对数据分析十分友好,同时还提供自动数据建模功能和一些数据处理以及统计学函数,用起来也很方便。下面就以一份用户原创 2022-09-05 09:29:18 · 18482 阅读 · 42 评论 -
Java开源专业计算引擎:跑批真的这么难吗?
业务系统产生的明细数据通常要经过加工处理,按照一定逻辑计算成需要的结果,用以支持企业的经营活动。这类数据加工任务一般会有很多个,需要批量完成计算,在银行和保险行业常常被称为跑批,其它像石油、电力等行业也经常会有跑批的需求。大部分业务统计都会要求以某日作为截止点,而且为了不影响生产系统的运行,跑批任务一般会在夜间进行,这时候才能将生产系统当天产生的新明细数据导出来,送到专门的数据库或数据仓库完成跑批计算。第二天早上,跑批结果就可以提供给业务人员使用了。原创 2022-08-22 07:51:23 · 9365 阅读 · 43 评论 -
又一门国产数据库语言诞生了,比SQL还好用
一、数据库语言的目标要说清这个目标,先要理解数据库是做什么的数据库这个软件,名字中有个“库”字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条:计算、事务!也就是我们常说的OLAP和OLTP,数据库的存储都是为这两件事服务的,单纯的存储并不是数据库的目标。我们知道,SQL是目前数据库的主流语言。那么,用SQL做这两件事是不是很方便呢?事务类功能主要解决数据在写入和读出时要保持的一致性,实现这件事的难度并不小,但对于应用程序的接口却非常简单,用于操纵数据库读写的代码也很简单。如果原创 2022-04-19 09:59:41 · 14355 阅读 · 36 评论 -
如何让JOIN跑得更快?
JOIN 一直是数据库性能优化的老大难问题,本来挺快的查询,一旦涉及了几个 JOIN,性能就会陡降。而且,参与 JOIN 的表越大越多,性能就越难提上来。其实,让 JOIN 跑得快的关键是要对 JOIN 分类,分类之后,就能利用各种类型 JOIN 的特征来做性能优化了。JOIN 分类有 SQL 开发经验的同学都知道,绝大多数 JOIN 都是等值 JOIN,也就是关联条件为等式的 JOIN。非等值 JOIN 要少见得多,而且多数情况也可以转换成等值 JOIN 来处理,所以我们可以只讨论等值 JOIN。原创 2022-05-24 09:25:45 · 16588 阅读 · 37 评论 -
Java程序员怎样考察报表工具的开发效率
不同的工具,开发方式不同,效率自然也分高下。效率高的,不仅做起来简单方便,还能给项目上节省很多成本;效率低的,开发起来费事费力,不仅工程师受不了,常年累月无形中浪费掉的人工成本,企业也受不了那怎么才能选一个开发效率高的呢?开发效率应该怎么考察呢?很多人在考察报表工具时,会关注工具是不是有流畅的可视化操作界面(厂家也喜欢宣传这一点,零编...原创 2022-05-11 09:33:14 · 11432 阅读 · 33 评论 -
强大的SQL计算利器-SPL
现代应用开发中,通常只用SQL实现简单的数据存取动作,而主要的计算过程和业务逻辑直接在应用程序中实现,主要原因在于:* 过于复杂的SQL很难调试、编写、阅读、修改。* SQL有方言特征,大量使用SQL后,会导致程序很难移植。* 架构方面要求业务逻辑在应用中实现,而不能依赖于数据库,否则耦合性过高。* 有些计算SQL不擅长,包括复杂的集合计算、有序计算、关联计算、多步骤计算,经常也需要移到数据库外实现。* 实现流程控制时,因为更难移植、耦合性更高、影响数据安全,不方便使用存储过程。........原创 2022-06-20 09:21:03 · 13810 阅读 · 35 评论 -
SPL工业智能:发现时序数据的异常
工业生产过程中会产生大量的数据,比如电压、温度、流量等等,它们随时间推移而不断产生,这些数据在多数情况下是正常的,否则生产无法正常进行;少数情况下,数据是异常的,生产效率会降低甚至发生事故。在重大事件(如事故)发生之前,通常会在运行数据上有所体现,比如电流突然上升,后续很可能断电,造成一些不必要的损失,如果及时发现电流增大这一信号,及时找到原因并处置则可以将损失降到最小。因此及时发现异常数据并报警,提醒操作人员进行相应的操作,可以提高生产效率并避免事故发生原创 2022-10-19 08:05:06 · 6270 阅读 · 73 评论