这个产品能支持多大数据量?

经常有用户会问这个问题,你家的产品能处理多大数据量?似乎是这个值越大产品就越牛。这个问题,其实没多大意义。能处理多大的数据量,还有个很关键的因素是期望的响应时间,在脱离这个因素单纯谈大数据产品的数据处理量,就不知道怎么回答了。考虑只有单台机器的简单情况。如果是希望秒级响应的OLAP式汇总,那么GB...

2018-06-12 10:39:22

阅读数:20

评论数:0

最简单的大数据性能估算方法

大数据的性能是个永恒的话题。不过,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。这个办法我在以往的文章中也提到过,不过没有以这个题目明确地点出来。其实很简单,就是算一下这些数据从硬盘上取出来用的时间。除了个别按索引取数的运算外,绝大多数运算都会涉及对数...

2018-06-11 17:21:50

阅读数:42

评论数:0

大清单报表应当怎么做?

在数据查询时,有时会碰到数据量很大的清单报表。用户输入的查询条件很宽泛,可能会从数据库中查出几百上千万行甚至过亿的记录。如果等着把这些记录全部检索出来再生成报表呈现,那需要很长时间,用户体验恶劣;而且报表一般采用内存运算机制,大多数情况下也装不下这么多数据。所以,我们一般都是使用分页呈现的方式,尽...

2018-06-05 10:13:24

阅读数:22

评论数:0

集算器(仓库版)发布,黑科技获得用户好评

2018年5月16日,集算器(仓库版)携带多项黑科技正式发布。在发布之前的应用验证中,仓库版就已经用实力赢得了用户的好评。北京银行用户在评价仓库版时表示:在数据分析实践中,高并发访问、大数据量计算造成的系统响应时间过长的问题,始终没有得到很好的解决。集算器(仓库版)的出现,彻底解决了这个难题!用集...

2018-05-29 12:36:27

阅读数:14

评论数:0

大数据技术的4个E

大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似4个V,我们把这些特性总结成4个E,用户在选择大数据技术解决方案时可作为参考。1. Easy 大数据技术要足够简单易用这个E很容易理解。要进行大数据处理的场景很多,...

2018-05-21 23:44:23

阅读数:5

评论数:0

查询?还是计算?这不再是个问题!(二)

从SQL到SPL基本查询语法迁移 之多表操作上一篇我们针对单表的情形了解了如何把数据计算从SQL查询迁移到集算器,或者更准确地说,迁移到集算器所使用的SPL集算语言。这个迁移过程,既有相同的概念,也有不同的思路。接下来,我们一起针对多表的情况看一下集算器和SPL语言是如何发挥更大的优势的。JOIN...

2018-05-14 17:51:54

阅读数:8

评论数:0

文本数据的分分合合

对于数据分析工作来说,可能最希望的是面对规整、一致的数据,例如定义清晰明确的关系数据库,或者可以自由钻取、切片的OLAP 数据仓库。但不幸的是,很多时候,我们不得不面对来自方方面面的零散数据,亲自操刀煎炒烹炸,这其中,文本数据的合并、分拆就有点像基本的刀工,既要做的漂亮,但又不能用太多的时间。这时...

2018-04-23 13:08:42

阅读数:19

评论数:0

敏捷BI的那些麻烦事(一)

敏捷BI这个词这两年比较流行,其实深究起来就是自主报表,是希望业务人员自己能完成数据分析和呈现。业务人员经常面对临时性的数据分析需求,比如某区域的电商想搞个促销活动,经常需要一批有针对性的用户数据来分析一下,传统手段一般提交给技术部门去实现,这样显然周期长、效率低,有时获得结果时已经失去促销窗口期...

2018-04-09 11:14:01

阅读数:32

评论数:0

差异数据的对比和整理

在我们日常的工作中,常常会遇到很多结构相同,但来源不同的数据。有时,这些数据之间完全独立,互不重叠,例如各个分公司从自己系统中导出的销售数据;但有时,这些数据之间又会有大量的重叠,例如常见的一个完整业务流程中涉及的各个系统、各个环节,都可能根据各自收到的单据进行录入。这时,如何对这些重叠数据进行对...

2018-03-30 11:45:31

阅读数:224

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭