什么是数据?数据是人们记录信息的符号,是对现实世界的抽象表示。人们利用数据样本可以归纳出现实世界的普适规律。我们常常看到把一堆数据输入到计算机,计算机就迅速处理输出我们想要的结果。有人说,软件发展这几十年,所有创新的诞生,都是基于数据处理为核心的。

       随着互联网的快速发展,人类获取的数据样本越来越大。据中国IDC圈最新发布的《2012-2013年度中国IDC行业发展研究报告》数据显示,2012年全球IDC市场整体规模达到255.2亿美元;国际IDC发布的2012年数字宇宙研究报告(Digital Universe)显示,数据每18个月翻一番,预计从现在到2020年,互联网产生的数据量将超过40ZB(40万亿GB),这相当于地球上每个人产生5200GB的数据。估计是地球上所有海滩上的沙粒数量的57倍。
       整个互联网世界正进入到“大数据时代”,海量数据的运用已成为未来竞争和增长的基础。运用大数据分析用户特征将提升企业的核心竞争力。像淘宝、百度、腾讯、新浪这些公司最核心的资产就是他们积累的数据。
       我们熟知的是企业常常通过分析大量数据来把握市场行情,做产品战略规划和制定营销策略,国外像亚马逊、facebook等公司很擅长利用海量数据挖掘商机,创造价值。沃尔玛一度拥有世界上最大的数据仓库系统,通过对消费者的购物行为等非结构化数据进行分析,了解顾客购物习惯,创造了“啤酒与尿布”的经典商业案例。
       未来海量数据除了部分由人产生以外,大部分由传感器、嵌入式设备产生,因为物联网会带来这类数据的爆炸式增长。而数据的价值,正是在于对于这些海量数据深度挖掘处理上的。面对海量数据,怎样在有效的时间内,找到最逼近现实的数学模型和最科学的算法,提高数据处理的智能程度,得到最有价值的计算结果,从而实现数据的价值最大化,是当前大数据技术所面临的挑战。
       海量数据的产生必将带来对存储、计算的巨大需求,云存储、云计算正在努力满足这种日益增长的需求。