最近把《大数据时代》(viktorMayer-Schonberger & Kenneth Cukier,ISBN:978-7-213-05254-5) 读完了。对即将来临的大数据世界,有了一点点的认识。
对于作者和译者(周涛)。这里我就不介绍了,有兴趣的朋友可以Google搜一下。
全书共分为三大部分:大数据时代的思维变革、大数据时代的商业变革和大数据时代的管理变革。
一、大数据时代的思维变革。
更多:不是随机样本,而是全体数据。当数据处理技术发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样,显得捉襟见肘。一切都改变了,我们向传统的统计分析发出挑战:样本=总体。即我们要用所有的数据,不再随机抽样:
让数据“发声”。
小数据时代的随机抽样,最少的数据获得最多的信息。
全数据模式:样本=总体。
更杂:不是精确性,而是混杂性。据统计,全球信息总量中,只有5%的信息是结构化的,可存放在数据库中。余下95%是半结构或无结构化的数据占据。这些数据中可能有一些是错误的、模糊的、不精确的。这是客观的事实,将它们剔除的做法显得低效而愚蠢,更得不偿失。我们能做的,就是允许这些因素的存在。
允许不精确。
大数据的简单算法比小数据的复杂算法更有效。
纷繁的数据在一起开party,越多越好。
混杂性,不是竭力避免,而是标准途径。
新的数据库设计的诞生:列式数据库。