大数据与小数据

最新推荐文章于 2021-04-02 09:00:58 发布

虾神说D

最新推荐文章于 2021-04-02 09:00:58 发布

阅读量4.3k

点赞数 4

分类专栏：大数据文章标签：大数据分析存储分布式并行计算

本文链接：https://blog.csdn.net/allenlu2008/article/details/38564695

版权

大数据专栏收录该内容

28 篇文章 16 订阅

订阅专栏

大数据与小数据

Esri中国卢萌

开始文章之前，先声明一下，文章的内容有的是大虾自己的理解，也有是网络上的内容，但是尽量不会去做大段的复制，如果实在有雷同得太厉害的，纯粹巧合。另外文章中的观点仅代表我个人想法，不对正确与否负责，希望有自我辨识能力的朋友有选择性的阅读。

本文的部分思想观点出自 Jules Berman 博士的著作《PRINCIPLES OF BIG DATA》。

———————————— 我是万恶的分割线 ——————————

大数据这个词一出现，就变得炙手可热，它本身的含义已经远远超过了IT圈子，可以说从来没有任何一个IT界的热门词汇，有如此之大的影响力。不管你是做什么的，只要你不把大数据挂在嘴边，马上就显得落伍了。

但是“大数据”这个“大”字，到底是多大？如果说这个“大”字是一个形容词的话，那是不是还有“小数据”、“中数据”，“次大数据”……呢？其实大数据这个词的出现，并不是仅仅用来形容数据很大（当然，现在有各种V来解释大数据，现在都已经到了11个V了），这里我通过翻译和解读Jules Berman博士的著作《PRINCIPLES OF BIG DATA》来对大数据和小数据做一个简单的对比。

在著作中，鲍曼博士认为大数据和小数据（又称为：小规模的数据、传统的数据，在下面的文本中，直接称为小数据）又如下10个方面的不同。

1、目标（Goals）

2、位置（Location）（这里主要指存储位置）

3、数据结构和内容（Data structure and content）

4、数据准备（Data preparation）

5、数据生命周期（Longevity）

6、衡量（Measurements）

7、可重复性（Reproducibility）

8、成本（Stakes）

9、内省（Introspection ：一种计算机技术，表示通过内部的一种机制，能够查询到数据中的各种上下文）

10、分析（Analysis）

下面，我就逐个展开来说说。

1、目标

大数据和小数据的本身存在的目标是不一样的。

小数据通常是为了回答特定的问题而存在，或者是为了满足特定的目标。也就说，我们是为了解决特定的问题才去收集、分析、处理指定的，相关的数据，如果某一些数据与我当前的目的无关，那么我就不会去管他。通常在收集这些数据之前，基本上都对数据的大致内容有所了解了，只不过是去收集具体的数据信息而已。就像我们在设计数据库的时候，字段名称、含义、约束条件，都固定了，在属性填入之前，基本上已经知道这个字段里面大致是一个什么内容，只不过以后是填入具体信息而已。

但是大数据不同，大数据收集的时候只是去考虑一个整体的目标，而这些目标可是很灵活的，针对这个目标，我们会提出各种各样的问题，所以没有人可以完全的说明大数据资源到底包含了些什么内容，因为一切可能都是没有被指定的。

2、位置

原文中用的是Location这个单词，我一看见就觉得有种冲动，可爱的LBS啊……好吧，后来发现他说的是存储位置。

作者认为，小数据，一般都是存放或者被包含在一个机构中，通常存储在一台计算机中（或者是一个集群、一个局域网），有时候也存储在一个（或者多个）文件以及一个数据库（或者数据库集群）中。

而大数据通常遍及整个电子空间，只有IT基础架构存在的地方，都有可能作为存放位置，他可能存放在地球的任何一个角落。

3、数据结构和内容

小数据通常都是高度结构化的数据，数据域被限制在一个单一的学科或者分支学科。这些数据往往来自于统一的形式记录的，一个有序的电子表格中。

大数据就必须包含各种非结构化数据（比如任意的文本文档、图像、视频、音频，甚至是物理实体）。这些资源的主题可以跨越多个学科，并在这些资源中，有各种以URL的方式，关联到其他的各种看似不相关的大数据资源。

4、数据准备

小数据在很多情况下，是由数据的使用者为自己的目的准备的数据。

大数据，有许多不同的来源，可能经过了许多人，准备数据的人基本上不是最终使用数据的人。

5、生命周期

在小数据中，当相关的项目结束时，数据保留的时间很有限（传统的学术研究数据的寿命通常为7年），然后就被丢弃了。

在大数据项目中，数据通常会被永久性的存储。在理想的情况下，存储在大数据资源中的原始数据，一直要被吸收到另外一个资源中，这样它的生命周期才宣告结束。许多大数据的项目，都会延伸到未来和过去（包含和收集大量的传统数据），包含和累积各种前瞻性和回顾性的数据。

6、衡量

小数据的质量和结果，可以用一组经过试验的方案来进行测量，也就是说小数据的内容可以通过标准的方法来解析和读，一般来说，都是通过一种标准的协议来进行的，也可以通过标准单位来进行表示。

大数据中，各种不同类型的数据提供了各种不同的电子格式，所以也要不同的协议来进行解析。如何验证大数据的质量也是数据管理中最困难的任务之一。

7、可重复性

小数据项目中，各种技术或者思想通常是可以重用的。比如关于数据的质量检测方式，数据的重用性，数据的有效性验证，数据中得出结论等。而且整个项目也可以重复，从而产生新的数据集。

大数据项目的重用性很少有可行的。在大多数情况下，人们都希望在一个大数据中出现的错误被发现后，能够被标记出来。但是大数据的情况下就算一个项目从数据中发现了错误，也没有办法被标示出来，下一个项目要使用这些数据进行分析，依然会出现这些错误。

8、成本

小数据项目的成本和代价是有限的，如果发现了问题，无论是重新启动项目还是放弃，代价都有限。

但是大数据项目的成本和代价确相当的高昂。大数据项目的失败可能导致企业破产、体制崩溃和大规模的裁员，并且所有资源中的数据都可能突然解体。比如2004年度至2010年度美国国立卫生研究院的成为高达3.5亿美元的大数据项目“NCI癌症生物信息网格”（NCI cancer Biomedical Informatics Grid）。专家委员会审阅发现，尽管经过数百研究人员和专家的努力，项目已经完成了一些，但是代价极其之高昂，之后只能被暂停，并且不就是和被终止。

9、内省

小数据（这里我实在忍不住一定要用“传统数据”这个词了）的各个数据坐标，都是数据在电子表格和数据库中的行和列来定位。如果知道行和列，那么就可以很容易的寻找到相应的所有数据。

在大数据中，除非数据的组织经过精心的设计，不然资源的内容和组织都是让人觉得高深莫测，甚至对于资源管理器本身都无法定位精确的数据信息。而对于数据组织内部信息的完全访问方式，可以通过一种称之为“内省”的技术来实现。（）。

10、分析

在小数据中，大多数情况下，整个项目中的数据，都可以一次性全部参与到分析中。

但是在大数据中，除了少数例外，比如使用超级计算机，或者在多台计算机上同时进行，大数据通常是是在通过分布式的方式进行分析（比如使用MapReduce）。这些数据会经过提取、评估、聚合，归一化、转换，可视化，诠释，等不同的方法进行分析。