大数据运算系统(三)

1. 内存通用大数据运算系统:Spark

  1. 可以从HDFS读数据,但是运算中数据放在内存中,不使用Hadoop,而是新实现了分布式的处理

  2. 目标是低延迟的分析操作

  3. MapReduce 的问题:通过HDFS进行作业间数据共享,代价太高

在这里插入图片描述

  1. Spark 的思路:1. 内存容量越来越大 2. 把数据放入多台机器的内存 3. 避免HDFS开销

在这里插入图片描述

  1. spark基础数据结构: RDD: 1. 一个数据集 2. 只读,整个数据集创建后不能修改 3. 通常进行整个数据集的运算 优点:并发控制被简化了;可以记录lineage(数据集上的运算序列),可以重新计算,并不需要把RDD存储在stable storage上

  2. RDD的两类运算: 1. Transformation:输入是RDD,输出是RDD 2. Action:输入是RDD,输出是可以返回给driver程序的结果,输出不是分布式的数据集

  3. 运算过程:1. 读入内存一次 2. 在内存中可以多次处理

在这里插入图片描述

  1. Transformation:仅记录,不运算(Lazy execution) Action:当遇到Action时,需要返回结果,才真正执行已经记录的前面的运算

  2. 容错/内存缓冲替换:当内存缓冲的RDD丢失时,可以重新执行记录的运算,重新计算这个RDD

  3. Spark Streaming:把输入的数据流转化为一个个minibatch,然后在minibatch上运行计算

在这里插入图片描述

  1. 大数据管理系统总结:

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程哥哥吖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值