大数据技术

大数据技术

2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。


一、基本概念

(1) 定义

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

(2) 技术支撑

  • 存储
  • 计算
  • 网络

(3) 4V特性

  • Volume 大量化
  • Variety 多样化
  • Velocity 快速化
    1秒定律:数据的价值通常只在产生后的1秒内有效
  • Value 价值密度低

(4) 大数据影响

  • 追求全样而非抽样
  • 追求效率而非精确
  • 追求相关而非因果

(5) 大数据技术的层次

  • 数据采集与引接
  • 数据存储与管理
  • 数据处理与分析
  • 数据隐私与安全

(6) 大数据两大核心技术

  • 分布式存储
    解决海量数据的存储问题
  • 分布式处理
    解决海量数据的处理问题

(7) Apache开源大数据技术

  • 分布式数据库:HBase(BigTable的开源实现)
  • 分布式文件系统:HDFS(GFS的开源实现)
  • 分布式并行处理技术:MapReduce

(8) 谷歌大数据技术

  • 分布式数据库:BigTable
  • 分布式文件系统:GFS
  • 分布式并行处理技术:MapReduce

(9) 大数据计算模式

  • 批处理
    针对大规模数据的批处理
    MapReduce、Spark
  • 流计算
    针对流数据需要实时处理,给出实时响应,否则分析结果就失去了商业价值
    Storm、Flume、S4
  • 图计算
    针对大规模图结构数据的处理
    Google Pregel
  • 查询分析计算
    针对大规模数据的存储管理和查询分析
    Google Dremel、Hive、Cassandra

(10) 大数据关键技术

Hadoop生态

在这里插入图片描述

Spark生态

在这里插入图片描述

Flink的生态

在这里插入图片描述

Hadoop的缺点
  • 延迟高
  • 磁盘IO开销大
  • 表达能力有限
Spark的优点
  • spark的计算模式也属于MapReduce,但是不限于Map和Reduce操作,还提供多种数据集操作类型
  • spark提供内存计算,迭代效率高
  • spark基于DAG的任务调度执行机制

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值