第 39 期:数据分段讨论

现代计算机一般都有多 CPU 核,而日益广泛应用的固态硬盘也有较强的并发能力,这些硬件资源都为并行计算提供了有力的保证。不过,要实现并行计算还需要有较好的数据分段技术,也就是能方便地把待计算的数据拆分成若干部分,让每个线程(或进程,这里以多线程为例讨论,多进程情况是类似的)分别处理。 设计数据分...

2018-12-19 18:01:46

阅读数 47

评论数 0

第 40 期:倍增分段技术

区块分段方案能够满足我们设定的 4 个目标。不过,除了处理区块标记的麻烦外,这个办法对于列存也不是非常适合。 数据按列分别存储后,分段时必须保证各列同步,即各列的分段点对应的是同一条记录的列,否则就会出错数据错位。而各个列的宽度是不同的,同样大小的区块在存储不同列的值时,能装下的个数是不同的,继...

2018-12-19 18:01:15

阅读数 37

评论数 0

第 41 期:文件的性能分析

我们以前讲过硬盘的性能特征,主要是针对硬件层面进行分析的,现在我们来考虑软件层面的差异。 理论上讲,软件可以穿过操作系统直接进行磁盘扇区的访问,但实在太过于麻烦而几乎不会实践机会,这里就不考虑了,我们只讨论操作系统下的存储形式,而文件就是其中重要的存储形式。 文件一般有两种:文本文件和二进制文...

2018-12-19 18:00:32

阅读数 53

评论数 0

中国报表漫谈

这两年来雨后春笋般地冒出二三十家做报表工具的公司,统统号称能处理中国式报表,大概是这中国报表复杂得都世界闻名了,但凡能搞得定中国的报表,那也就没什么搞不定的报表了。弄到后来有好些所谓的报表只要能在格子里摆条斜线就敢说能对付中国报表(这也太小瞧祖国文化了),而且老外也开始扬言适合于中国报表了,这时髦...

2018-12-19 17:56:29

阅读数 75

评论数 1

第 42 期:RDB 与 NoSQL 的访问性能 数据蒋堂

我们继续从软件角度上看外存数据源的性能,来考察数据库的性能特点,在这篇文章中,我们只关心数据的访问性能,而不涉及计算性能。 关系数据库 关系数据库也是很常见的数据存储方式。本质上讲,数据库其实也是一种特殊的二进制文件,但它的性能会弱于直接写在操作系统下的文件,主要原因在于数据库通常都要提供数据...

2018-12-11 11:34:48

阅读数 31

评论数 0

第 43 期:报表开发的现状

报表开发,看起来只是数据呈现环节的事务,并不起眼,但仔细想想,它涉及的工作范围却非常广。如果把查询和交互分析也认为是报表事务的话(呈现形式本来也是报表),那么可以说,绝大多数 ETL 都是在为报表准备数据而存在的;而且,在数据库中的表,有相当多(经常超过半数)也不是用来存放原始数据,而是为了报表服...

2018-12-11 11:34:01

阅读数 57

评论数 0

应对报表没完没了的五个步骤

报表的业务稳定性天生很差,业务开展过程中会催生出许多新的查询统计需求,这就造成了没完没了的报表,这是个无法被消灭的任务,也是许多行业软件开发商非常头疼的事情。投入了很多人力,也引入了专业报表工具以及敏捷 BI 产品,却依然搞得灰头土脸,常常被客户抱怨。这是为什么呢?又该怎么解决呢? 因为报表工具...

2018-12-05 19:41:38

阅读数 15

评论数 0

内存数据集产生的隐性成本

当我们要对数据做一些非常规的复杂运算时,通常要将数据装入内存。现在也有不少程序设计语言提供了内存数据集对象及基本的运算方法,可以较方便地实现这类运算。不过,如果对内存数据集的工作原理了解不够,就可能写出低效的代码。 我们看数据集的产生。比如要生成一个 100 行 2 列的数据集,第一列 x 为序...

2018-12-05 19:40:27

阅读数 24

评论数 0

【数据蒋堂】第 44 期:谈谈临时性计算

临时性计算,顾名思义,是指临时发生的一些计算需求。这种计算在日常数据处理中很常见,我们举一些例子: 应对业务部门的取数需求:比如销售部门想获得进行了某项促销活动前后的销售情况变化信息; 数据挖掘算法前的清理准备:将来自各个业务系统的数据(甚至一些企业外部的数据)整理成规则一致的二维表,这些动作...

2018-11-29 16:00:28

阅读数 17

评论数 0

【数据蒋堂】第 45 期:大数据计算语法的 SQL 化

回归 SQL 是当前大数据计算语法的一个发展倾向。在 Hadoop 体系中,现在已经很少有人会自己从头来写 MapReduce 代码了,PIG Latin 也处于被淘汰的边缘,而 HIve 却始终坚挺;即使是 Spark 上,也在更多地使用 Spark SQL,而 Scala 反而少很多。其它一些...

2018-11-29 15:56:31

阅读数 15

评论数 0

【数据蒋堂】第 46 期:大数据集群该不该透明化?

这好像是个多余的问题,大部分大数据平台都把集群透明化作为一个基本目标在努力实现。 所谓集群透明化,是指把一个多台机器的集群模拟得像一个巨大的单机,只是系统管理层面知道体系是由很多单机集群而成,应用程序则应当尽量少地感受到集群的存在,在概念上可以把整个集群理解成一台机器,甚至在代码级都可能和单机运...

2018-11-29 15:55:55

阅读数 14

评论数 1

【数据蒋堂】第 47 期:Hadoop – 一把杀鸡用的牛刀

Hadoop 是个庞大的重型解决方案,它的设计目标本来就是大规模甚至超大规模的集群,面对的是上百甚至上千个节点,这样就会带来两个问题: 1.自动化管理管任务分配机制:这样规模的集群,显然不大可能针对每个节点提供个性化的管理控制,否则工作量会大到累死人,必须采用自动化的管理和任务分配手段,而这并不...

2018-11-29 15:55:11

阅读数 17

评论数 0

【数据蒋堂】第 48 期:Hadoop 中理论与工程的错位

Hadoop 是当前重要的大数据计算平台,它试图摒弃传统数据库的理念,重新构建一套新的大数据体系。但是,这并不是件很容易的事,在 Hadoop 的设计和实现中能看到一些先天不足的地方,其中一点就是把理论问题和工程问题给搞拧了。 所谓理论方法,是指试图解决问题的一般情况,设计通用的算法能适应尽量多...

2018-11-29 15:54:25

阅读数 19

评论数 0

区块链技术的一些疑问

下面是我在学习了解区块链技术过程中产生的疑问,思考问题的过程中也会让自己对这项技术理解得更深刻。我不算初学者(知道区块链已有五年之久了),但一直也没有深入学习,不能算链圈的专业人士,所以可能孤陋寡闻,不能确认这些问题是不是已经被解决了,或者根本就是问得毫无意义,权当学习笔记。 1. 区块链只适合...

2018-11-28 18:41:02

阅读数 69

评论数 0

存储和计算技术的选择

前一阵子公司有个售前来沟通某个用户的情况:数据量比较大,又涉及很多复杂的关联计算,在数据库中用 SQL 计算性能很差。本来这种场景是比较适合集算器的集文件(集算器特有的压缩二进制格式)存储并计算,但据说这个用户的历史数据还会经常变动,而集文件目前没有提供改写能力(为了保证压缩率和性能),也就不容易...

2018-11-28 18:36:16

阅读数 35

评论数 0

人工智能中的“人工”

自从 AlphaGo 赢了之后,人工智能就变得非常热门了。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工智能之后,一切都能自动化了。其实,这份智能的背后有着大量的“人工”,还有相当多不能自动化的事情。 这里的人工主要体现在两个方面: 1. 数据准备 现代的人工智能...

2018-11-28 18:32:01

阅读数 40

评论数 0

应对报表没完没了的五个步骤

报表的业务稳定性天生很差,业务开展过程中会催生出许多新的查询统计需求,这就造成了没完没了的报表,这是个无法被消灭的任务,也是许多行业软件开发商非常头疼的事情。投入了很多人力,也引入了专业报表工具以及敏捷 BI 产品,却依然搞得灰头土脸,常常被客户抱怨。这是为什么呢?又该怎么解决呢? 因为报表工具...

2018-11-28 18:26:09

阅读数 21

评论数 0

“后半”有序的分组

上一期我们说了前半有序的数据,这次我们来看看“后半”有序的情况。 回顾一下前半有序的说法:我们要把数据集 T 按字段 a,b 排序时,如果 T 已经对 a 有序,则可以利用这一特点实现高性能算法。但后半有序却不是对称地把问题理解成 T 已经对 b 有序时要对 a,b 排序的任务,这个“后半”序信...

2018-11-28 18:12:42

阅读数 17

评论数 0

国产数据库通通都没戏!

这标题摆明了就是招人骂,一下子把国内做数据库的同行们都得罪了,甚至连自己都没落下(我也算做数据库的,而且当然也是国产的)。 这观点已经有 N 年了,而且也多次讲过。这次正好有个热点来蹭,就把它写出来。既然蹭热点嘛,那就不怕标题党了。 不过,还是要先澄清一下,这里说的“没戏”,并不是说国内厂商做...

2018-11-19 11:35:30

阅读数 22

评论数 0

国产操作系统还能怎么做?

一家之言,开个脑洞。 操作系统在市场上的关键点,并不在于进程管理、文件系统这些看起来很核心的东西,这些东西真地可以抄(借鉴一下没关系的)。操作系统要普及成功,关键在于上面开发技术的方便性,也就是开发工具的易用性以及 API 的丰富性。开发工具就是操作系统的用户界面,决定了用户体验;下层核心是为上...

2018-11-19 11:34:55

阅读数 24

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭