关于大数据,目前业界并没有统一定义,只有几个比较一致的观点。
一个观点是来自高德·纳咨询公司梅尔夫·阿德里安的描述:大数据是超出了常用硬件环境和软件工具,在可接受时间内为用户收集、管理和处理数据的能力,讲的是一种能力。
另一个观点,则是来自麦肯锡全球数据分析研究所的一篇论文,其中谈到:大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集,讲的是数据的集合。
那么,该如何理解大数据?
大数据用来描述那些数量庞大到无法用人工,甚至用简单的计算机软件进行处理的海量数据。随着计算机和现代检测技术的发展,获取数据变得越来越容易。首先了解几个术语:
数据——组成大数据的单元。
数据,指事实或观察到的结果,是对客观事物的逻辑归纳,用于表示客观事物未经加工的原始素材。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息不可分离,数据是信息的表达,信息是数据的内涵。数据本身毫无意义,只有对实体行为产生影响时才成为信息。大数据中的数据量非常巨大,其中,不仅包括结构化数据,如数字、符号等数据,也包括非结构化数据,如文本、图像、声音、视频等数据。
数据库——承载大数据的容器。
在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,也是进行科学研究和决策管理的重要技术