• 博客(13)
  • 收藏
  • 关注

原创 利用集算器实现分库汇总

当单台数据库的数据量太大而影响性能时,可以把数据拆分到多台服务器上,每台服务器只承担部分计算压力,再由SPL合并计算结果。特殊地,数据可拆分为历史数据库和当前实时数据库,由SPL实现T+0计算。下面用几个典型例子来说明分库汇总的用法。过滤订单表orders分库存储在两个Oracle数据库中,数据源名分别为orclA、orclB,请过滤出金额amount大于等于10000的订单。SPL代...

2019-05-22 10:58:36 253

原创 SPL 简化 SQL 案例详解:多层固定分组

在数据库应用开发中,我们经常需要面对各种复杂的SQL计算,多层固定分组就是其中一种。实现该算法的思路是用left join语句将源数据按照固定的依据对齐,但由于该算法往往涉及分组汇总、行间计算、填补缺失数据,而且层次较多,因此相应的SQL语句会非常复杂。本文将介绍一种相对简单易懂的方法,也就是用SPL实现多层固定分组。下面用一个实例进行说明:表stocklog存储着每天多种货物的多次出入库...

2019-05-22 10:47:02 727

原创 esproc vs python 6

本节在数据量比较大的情况下,对比esproc和python。数据量:7000多条万记录,5个字段分别是orderid,clientid,sellerid,amount,date。总大小超过3G。1. 筛选8月份的交易记录esproc A 1 =now() 2 =file("E:\\orders_big_data\\orders.csv").cursor@...

2019-05-22 10:32:39 293

原创 新一代内存计算引擎

【摘要】内存计算的本质就是为了高性能 (包括一定的高并发),以此应对实时查询等问题!当前技术手段要么太贵、要么体系沉重;而集算器不仅算的更快,且体积更小、更轻!同时具备高度的集成性与灵活性!赶快去乾学院看个究竟吧!新一代内存计算引擎【下载附件】新一代内存计算引擎...

2019-05-22 10:15:04 377

原创 从 TPCH 测试看 SPL 性能优化技巧 1

测试环境说明CPU:4颗,主频2.6G,每个CPU内核数8个。硬盘:800G,15000转SAS硬盘,理论读写速度150m/s。内存:64G。操作系统:Linux cent os 6SQL1select l_returnflag, l_linestatus, sum(l_quantity) as sum_qty,...

2019-05-17 11:15:19 286

原创 集算器实现外部数据并行计算

文本并行SPL可将文本文件按体积大致分为N段,只读取其中一段。比如cardInfo.txt存储着一千万条人口信息,将其分为十份,取第二份,代码可以写作: A B 1 =file("d:\\temp\\cardInfo千万.txt") 2 =A1.import@t(;2:10) /直接读入内存 3 =A1.cursor@t(;2:1...

2019-05-17 11:04:04 184

原创 SPL 代码优化技巧

SPL是一种面向结构化数据计算的程序设计语言,集算器是SPL语言的java实现,采用网格式编程形式提供了编码和调试的IDE环境,语法比Java和SQL更为简单易懂,开发效率更高。本文将从集算器的实现原理出发列举一些可以提升计算性能的小技巧。1数据类型1.1 数值SPL里的数值类型有Integer、Long、Double、BigDecimal。其中BigDecimal虽然...

2019-05-05 17:08:02 434

原创 esproc vs python 5

1. 列出分期贷款明细题目介绍:loan 表存储着贷款信息,包括贷款 ID,贷款总额、按月分期数、年利率。数据如下:我们的目的是列出各期明细,包括:当期还款额、当期利息、当期本金、剩余本金。esproc A 1 =now() 2 =file("C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_d...

2019-05-05 17:05:42 260

原创 海量账户大并发实时查询解决方案

【摘要】手机银行查流水、网上银行查收入、游戏账号查明细、手机营业厅查充值记录等等都属于海量账户查询场景。此场景的特点是:访问人数特别多,全量数据超大,而且不能让用户等待!点击海量账户大并发实时查询解决方案,去乾学院看看在大并发海量账户查询场景中,如何用集算器实现秒级的查询速度!方案文件下载...

2019-05-05 16:47:12 389

原创 集算器与微服务

引言为了应对业务需求的快速变化和发展,软件开发的理论和框架也在不断发展。在这个背景下,微服务近年来收到了越来越多的关注,大量企业已经或正在计划采用微服务架构,而数据应用也是其中一环。如何才能高效地开发出符合微服务架构要求的数据应用?润乾集算器将会助你一臂之力。方案介绍方案文档下载:集算器与微服务.pdf...

2019-05-05 16:44:25 150

原创 esproc vs python 4

1.计算每年同月份增长比esproc A 1 =now() 2 =file("C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\sales.csv").import@t() 3 =A2.groups(year(ORDERDATE):y,month(ORDERDATE):m;sum(AM...

2019-05-05 16:40:23 188

原创 SPL 关联优化技巧

1. 小维表用SPL进行关联,当维表不大时可以读入内存。1.1 单字段主键如果维表是单字段主键,可以使用switch做连接。例如有订单、客户、雇员三个表存储在集文件中,表结构如下:Order Customer Employee orderID customerID employeeID customerID ...

2019-05-05 16:17:16 192

原创 性能优化技巧 - 组表数据更新

组表是集算器提供的高性能存储格式,其原理在于将数据事先排序并以压缩方式紧致存储,好处是占用空间更小,可利用有序进行快速定位。但这种存储方式在数据更新时会遇到麻烦,这是因为新数据也要和历史数据一起排序并压缩,常常会要求重写整个组表,重写操作非常耗时,但又不得不做。不过,有些场景下却有高性能的数据更新手段,我们来看一下。尾部更新我们知道,组表允许修改少量数据。但修改量积累较多时,就要做...

2019-05-05 15:56:42 104

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除