大数据的前世今生

"大数据"一词最早出现在2008年,当时业界普遍认为数据规模的增长模式将深刻的改变IT行业的方方面面。那么如何快速的获取、保存、分析处理数据将是未来发展的巨大挑战。“大数据”进入公共视野后,一时间各行各业都发现自己身处大数据的漩涡中,其实大数据是一直存在于计算机和信息时代,只不过数据规模、海量数据存储和处理数据的软硬件系统能力还不足以支撑大数据的发展。

       一、数据仓库

人类社会发展过程中一直伴随着数据的使用,对数据的分析产生量化结果,为人类活动指引正确方向提供支持。进入计算机时代,尤其是数据库和文件系统技术出现以后,伴随着应用数学的发展,数据的管理和处理有了更为高效的辅助工具。

20世纪90年代Bill Inmon提出了数据仓库理论,这个理论描述了用以支持结构化数据联机分析处理(OLAP)的新方案,他要求在构建数据仓库前,先为待回答的问题进行数据建模,构建统一的基于主题的数据视图。数据仓库保存的数据是经过抽取、转换和装载等流程处理过得数据。而且数据仓库只能为有明确的结论指向的问题寻找答案,这类问题的数据模型是固定的,处理流程也是固定的,举个例子:销售报表展示过去一年内每个月各个品牌的手机在不同地区的销售情况,类似于数据库查询功能。数据仓库的瓶颈在于:不能应对探索发现式的数据分析,比如顾客的个人喜好如何影响手机的销售,有时回答问题所需的数据超出了已有数据的范围,数据处理过程中要素缺失使得结果失真,或者数据处理技术超出了传统数据库的能力范围。

下图为数据仓库逻辑架构图:

 

二、海量非结构化数据的价值

近年来,互联网技术蓬勃发展,人类渐渐脱离了信息接受者的角色,变成了信息的制造者,尤其是在自媒体发展迅速的现在。据统计,全球每秒有290万封邮件传送,每天有2.88万小时的视频上传到YouTube,再加上国内火热的短视频APP。

文本信息(即时通讯、存档日志、机器运行日志)、图片(交通卡口车辆牌照、各类证件照片、医疗影像、卫星观测照片)、音频录音、监控视频等都属于非结构化数据。

结构化的数据大部分使用关系数据库二维表的形式保存处理过的信息,描述逻辑和实体之间的关系。利用SQL这种蕴含关系代数逻辑的编程语言非常简单。然而,非结构化数据容量巨大、增长迅速、没有固定的格式、处理数据代价巨大。而且提炼数据的逻辑复杂,小规模集群系统不可能应对这么大的工作量。非结构化的数据保存、管理、和处理对计算机软硬件系统以及数据分析理论提出了新的要求。

三、大数据的定义

业界对大数据的定义没有一个公认、固定的说法,因为随着大数据技术的演进,相关概念也在一直不断地变化。几个主流研究机构和业界对于大数据的定义作为参考:

Gartner:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理分析的信息。定义了那些超出正常处理范围和大小,迫使用户采用非传统处理方法的数据集。

维基百科:大数据是指无法在一定时间内使用常规软件工具对其工作内容进行抓取、管理和处理的数据集合。

IDC:一般来说,其会涉及两种以上的数据形式,数据量在100T以上,而且是高速、实时数据流。或者从小数据开始,但数据以每年60%的增长率增长。

总的来说,大数据最重要的是如何使用,如何快速的提供价值信息。带来的最大挑战在于使用何种技术能更好的储存、检索和使用数据。

大数据的典型特征简称“3V”,即:Volume海量、Variety多样性、Velocity速度。

四、我们可以用大数据做什么

医疗行业:一些医疗保健内容分析预测技术允许企业找到大量与病人相关的临床医疗信息,通过大数据处理,可以更加直观的了解病人的信息;

也可以搜集穿戴设备反馈的用户运动和健康信息,经过大数据处理,可以为医生的诊断提供依据。

能源行业:监测用户的用电以及使用能源信息,推断出在未来的时间内大概需要消耗多少能源,提前采购,降低采购费用。

商业领域:通过分析用户的消费行为以及消费能力,为用户推荐更适合自己的商品。

同样也可以为企业提供市场反馈,便于实时更好的市场方案等。

大数据现阶段正处于大力发展阶段,大数据带给我们的便利以后便可慢慢浮现。

五、大数据发展趋势

大数据生态体系的发展有以下趋势:

1.大数据分析存储软件支持多种访问接口。

2.大数据分析时效性对硬件提出的新要求。

3.大数据基础设施云化。

4.数据资源化和云化。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值