大数据概述

大数据发展的三个阶段:

阶段

时间

内容

第一阶段:萌芽期

上世纪90年代至本世纪初

随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。

第二阶段:成熟期

本世纪前十年

Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFDMapReduce等发数据技术受到追捧,Hadoop平台开始大行其道

第三阶段:大规模应用期

2010年以后

大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

大数据--属性


1、数据量大

      数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)

2、数据类型繁多

      大数据是由结构化和非结构化数据组成的:

           10%的结构化数据,存储在数据库中

           90%的非结构化数据,它们与人类信息密切相关

3、处理速度快

4、价值密度低,商业价值高


大数据关键技术

大数据技术的不同层面及其功能

技术层面

                                                                                                                     功能

数据采集

利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析

数据存储和管理

利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理

数据处理与分析

利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据

数据隐私和安全

在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

大数据关键技术

 

 

大数据计算模式

大数据计算模式

解决问题

代表产品

批处理计算

针对大规模数据的批量处理

MapReduceSpark

流计算

针对流数据的实时计算

StormS4FlumeStreamsPumaDStreamSuper Mario、银河流数据处理平台等

图计算

针对大规模图结构数据的处理

PregelGraphXGiraphPowerGraphHamaGoldenOrb

查询分析计算

大规模数据的存储管理和查询分析

DremelHiveCassandraImpala

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值