![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
集算器
文章平均质量分 75
Alice_656
这个作者很懒,什么都没留下…
展开
-
10 行代码解决漏斗转换计算之性能优化
可阅读原文:http://c.raqsoft.com.cn/article/1539156910581?r=alice大数据分析的性能优化,说道底,就优化一个事情:针对确定的一个计算任务(数据确定,结果确定),以最经济的方案得到结果。这个最经济的方案主要考量三个成本:时间成本、硬件成本、软件成本。时间成本:根据计算任务的特点,能容忍的最长时间各不相同。那些 T+0 的计算任务,实时性要...转载 2018-11-23 16:23:20 · 268 阅读 · 0 评论 -
大主子表关联的性能优化方法
可阅读原文:http://c.raqsoft.com.cn/article/1545619124373?r=alice主子表是数据库最常见的关联关系之一,最典型的包括合同和合同条款、订单和订单明细、保险保单和保单明细、银行账户和账户流水、电商用户和订单、电信账户和计费清单或流量详单。当主子表的数据量较大时,关联计算的性能将急剧降低,在增加服务器负载的同时严重影响用户体验一、 ...转载 2019-01-04 11:53:49 · 612 阅读 · 0 评论 -
Java 嵌入 SPL 轻松实现数据分组
阅读原文:http://c.raqsoft.com.cn/article/1544235144250?r=alice要在 Java 代码中实现类似 SQL 中的 GroupBy 分组聚合运算,是比较繁琐的,通常先要声明数据结构(Java 实体类),然后用 Java 集合进行循环遍历,最后根据分组条件添加到某个子集合中。Java 8 有了 Lambda(stream)代码简洁了许多,分组后往往还...转载 2018-12-19 18:04:41 · 250 阅读 · 0 评论 -
协助 MySQL 实现 Oracle 高级分析函数
阅读原文:http://c.raqsoft.com.cn/article/1535964014661?r=aliceOracle 支持一些独特的语法和函数,在移植到 MySQL 上时或多或少给程序员造成了困扰,下面我们针对 Oracle 的一些特殊用法举例并讲解如何用集算器来完成同样功能。这些方法当然也不限于针对 MySQL,对于所有其它数据库也能支持。1、 递归语句a...转载 2018-12-06 18:16:35 · 184 阅读 · 0 评论 -
10 行代码提取复杂 Excel 数据
把 Excel 文件导入关系数据库是数据分析业务中经常要做的事情,但许多 Excel 文件的格式并不规整,需要事先将其中的数据结构化后再用 SQL 语句写入数据库。而一般情况下,结构化的工作量会比较大,而且很难通用,每次都要针对文件格式进行分析后再进行开发。下面使用另外一种方式处理1. 普通行式 先看最简单的情况:如下图所示,Excel文件中第一行是列标题,从第二行开始,每行是一条数...转载 2018-12-06 18:11:31 · 423 阅读 · 0 评论 -
跨库多维分析后台的实现
可阅读原文:http://c.raqsoft.com.cn/article/1535601728534?r=alice问题的提出 多维分析(BI)系统后台数据常常可能来自多个数据库,这时就会出现跨库取数计算的问题。例如:从性能和成本考虑,往往会限制生产库的容量,同时将历史数据分库存放,由ETL定期把生产库中新产生的数据同步到历史库中,同步周期根据数据的生成量,可能是...转载 2018-12-13 16:15:43 · 287 阅读 · 0 评论 -
轻量级可嵌入多维分析后台
可阅读原文:http://c.raqsoft.com.cn/article/1534408099533?r=alice问题的提出多维分析(BI)系统后台数据源通常有三种选择。一、普通数据库;二、专业数据仓库;三、BI 系统自带的数据源。但是,这三种选择都有各自的问题。普通数据库一般都是行式存储,很难获得多维分析希望的高性能,只适用较小数据量。专业数据仓库有不少是列式存储的,性能问题不大...转载 2018-12-13 16:10:43 · 185 阅读 · 0 评论 -
基于文件系统实现可追加的数据集市
可阅读原文:http://c.raqsoft.com.cn/article/1538189724921?r=alice一 问题背景绝大多数的应用系统中,一开始数据的存储和计算基本都是由数据库来完成的,同时服务于业务交易和报表查询;不过在经过几年信息化建设和数据积累后,常常都会遇到数据库压力变大,从而导致性能瓶颈的问题。究其原因,往往发现针对历史数据查询的报表在其中占了很大比重。进一步分...转载 2018-11-28 14:15:27 · 194 阅读 · 0 评论 -
车险往年保单关联计算的性能优化
可阅读原文:http://c.raqsoft.com.cn/article/1541400226267?r=alice保险行业中,往往需要根据往年保单来快速计算和生成当年新的保单。以车险为例,在提醒老客户续保时就需要计算指定时间段的往年保单,例如某省级公司需要定期计算特定月份内可续保保单对应的历史保单。而目前在大多数保险营运系统中,这类批量数据处理任务都是由存储过程实现的,其中存在的典型问题就...转载 2018-11-28 13:55:19 · 405 阅读 · 0 评论 -
10 行代码集算器实现写诗机器人
可阅读原文:http://c.raqsoft.com.cn/article/1536756719594?r=alice集算器不仅有大数据计算,还有诗和远方。最近看到不少写诗机器人的新闻,于是尝试用集算器简单地实现一个。这个实现真的很简单,简单到只有10几行代码,请看实现步骤: 1下载字典和诗词从网上找一个用于分词的字典文件,里面记录着每个中文词汇的词性。我从GitHub上找了一个,...转载 2018-11-27 11:55:51 · 385 阅读 · 0 评论 -
数据计算中间件技术综述
可阅读原文:http://c.raqsoft.com.cn/article/1537237515333?r=alice## 传统企业大数据架构的问题 上图是大家都很熟悉的基于 Hadoop 体系的开源大数据架构图。在这个架构中,大致可以分成三层。最下一层是数据采集,通常会采用 kafka 或者 Flume 将 web 日志通过消息队列传送到存储层或者计算层。对于数据存储,目前 Apa...转载 2018-11-27 11:40:45 · 269 阅读 · 0 评论 -
10 行代码实现手写数字识别
可直接阅读原文:http://c.raqsoft.com.cn/article/1540374496048?r=alice识别手写的阿拉伯数字,对于人类来说十分简单,但是对于程序来说还是有些复杂的。 不过随着机器学习技术的普及,使用10几行代码,实现一个能够识别手写数字的程序,并不是一件难事。这是因为有太多的机器学习模型可以拿来直接用,比如tensorflow、caffe,在pyt...转载 2018-11-27 11:34:08 · 632 阅读 · 0 评论 -
数据分析之37 个场景使用到集算器
可阅读原文:http://c.raqsoft.com.cn/article/1534732238335?r=alice慢1、清单式大报表难以及时呈现,采用数据库分页方式翻页效率很差集算器将计算和呈现做成两个异步线程,取数线程发出 SQL 将数据缓存到本地,然后交给呈现线程快速展现报表 取数线程只涉及一个事务不会出现数据不一致,保证数据准确性2、查询报表从数据库中取数量大,JDBC ...转载 2018-11-29 18:46:54 · 212 阅读 · 0 评论 -
超大数据下大批量随机键值的查询优化方案
可阅读原文: http://c.raqsoft.com.cn/article/1536544293689?r=alice一、问题描述键值查询是很常见的查询场景,在数据表上建有索引后,即使表中数据记录数巨大(几亿甚至几十亿行),用键值查询出单条记录也会很快,因为建立索引后的复杂度只有 logN(以 2 为底)次, 10 亿行数据也只要比较 30 次(10 亿约等于 2^30),在现代计算机上...转载 2018-11-29 18:40:15 · 177 阅读 · 0 评论 -
应对多层JSON数据计算与入库
可阅读原文:http://c.raqsoft.com.cn/article/1536633176729?r=aliceJSON作为一种轻量级的数据交换格式,因其易于读写和交互的特点,已逐渐成为主流的数据类型之一。常见的编程语言大多都对 JSON 的读取与解析提供了接口,但是接下来如何把多层 JSON 数据经过筛选、计算并展开成二维数据,就需要开发人员去头疼了。本文就为大家分享一下如何利用集算器...转载 2018-11-29 14:47:32 · 356 阅读 · 0 评论 -
让Birt报表脚本数据源变得既简单又强大
可阅读原文:http://c.raqsoft.com.cn/article/1537155188168?r=alice应用场景:报表数据准备应用结构集成后,集算器嵌入报表应用层,相当于本地的逻辑数据库(不需要单独服务器部署),在报表与数据源间作为报表数据准备层,完成各种复杂的计算任务。概述:运行在 JVM 上的 SQL 函数和存储过程总所周知,有些数据库没有强大的分析函数(...转载 2018-11-29 14:11:01 · 386 阅读 · 0 评论 -
实时报表 T+0 的实现方案
可直接阅读原文:http://c.raqsoft.com.cn/article/1541494770016?r=alice一 问题背景在报表的应用系统中,用户越来越关注数据的实时性,希望最新发生的数据能在报表中体现出来,也就是我们常说的T+0场景, 以此及时辅助决策、驱动运营。比如交通大数据应用的场景:需要结合实时数据了解车辆通行密度,合理进行道路规划,同时根据历史数据预测线路拥堵情况...转载 2018-11-23 16:12:50 · 1167 阅读 · 0 评论 -
SQL 难点解决之集合及行号
可直接阅读原文:http://c.raqsoft.com.cn/article/1542508403539?r=alice1、 和集示例 1:求重叠时间段的总天数MySQL8:with recursive t(start,end) as (select date'2010-01-07',date'2010-01-9'union all select date'2010-01-...转载 2018-11-23 16:06:03 · 161 阅读 · 0 评论 -
利用有序高效实施交并差集合运算
可阅读原文:http://c.raqsoft.com.cn/article/1545662863743?r=alice 交并差是常见的集合运算,SQL 中对应的 intersect/union/minus 计算也很简单。不过当数据量较大时,这类集合运算性能往往偏低,尤其当参与计算的数据量超过内存容量时,性能表现会十分糟糕。 本文专门针对这种情况下的高性能计算(HPC)需求,讨论...转载 2019-01-04 11:58:31 · 315 阅读 · 0 评论