一、大数据概述
1.大数据概念
大数据(big data)是一个抽象的概念,至今尚无确切、统一的定义,不同的研究机构与学者对其有着不同的定义。
全球最具权威的IT研究与顾问研究机构高德纳(TheGartner Group)咨询公司给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡全球研究所对大数据的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,因此它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。
2.特征
IBM公司认为大数据具有3V特定,即规模性(Volume)、多样性(Variety)和实时性(Velocity),但是这没有体现出大数据的巨大价值。而以IDC为代表的业界则认为大数据具备4V特点,即在3V的基础上增加价值性(Value),具体表现为大数据虽然价值总量高但其价值密度底。目前,大家公认的是大数据具有4个基本特征:数据规模大,数据种类多,处理速度快以及数据价值密度低,即4V。
(1)数据规模大。第一个特征是数据量大ÿ