Spark(Python版)——大数据技术

大数据关键技术

  • 分布式存储
    解决数据存储问题
    GFS
    HDFS
    BigTable
    HBase
    NoSQL

  • 分布式处理
    解决数据高效计算问题
    MapReduce
    Spark

大数据计算模式

不同的计算模式需要使用不同的产品

  • 批处理计算:MapReduce、Spark
  • 流计算:需要实时处理,给出实时响应(Storm,Flume)
  • 图计算:如社交网络数据
  • 查询分析计算:Dremel、Hive

Hadoop

它不是单一产品,是一个完整的生态系统。
在这里插入图片描述

  • HDFS 是一个分布式文件系统,用来海量分布式文件存储。
  • YARN 是用来提供资源调度和管理服务。
  • MapReduce 是分布式计算框架。
  • Hive 是编程接口,将SQL语句自动转换对HDFS查询分析,得到结果。
  • Pig 是数据流处理
    在这里插入图片描述
  • Mahout 是常用数据挖掘算法分类、聚类、回归等。
  • HBase 是分布式数据库。
  • Flume 做日志采集。
  • Sqoop 完成Hadoop系统组件之间的互通。

Spark

Spark也是一个完备生态系统。
在这里插入图片描述

  • Spark Core:满足企业批处理
  • Spark SQL:满足查询分析
  • Spark Streaming:满足流计算
  • MLlib:机器学习算法库
  • GraphX:满足图计算

MapReduce缺点:

  • 表达能力有限
    MapReduce将复杂业务逻辑抽象为Map函数和Reduce函数,其限制了表达能力。并非所有问题都能抽象为Map和Reduce
  • 磁盘IO开销大,迭代次数大的话就会不断读磁盘写磁盘
  • 延迟大

Spark本质上计算模式也是MapReduce,但是操作不局限于Map和Reduce两个操作,提供了更多的操作类型。而且Spark会存储在内存中,磁盘IO开销很小。

而Spark单纯是一种计算框架,等价于MapReduce。
在这里插入图片描述

Flink和Beam

Flink是和Spark类似的计算框架。
在这里插入图片描述

Spark社区更好!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值