2021_03_25

A 问题

1.spark⽀持故障恢复的⽅式?
2.详细说一下hadoop和spark的相同点和不同点?
3.spark如何保证宕机迅速恢复?

A1 spark⽀持故障恢复的⽅式?

主要包括两种⽅式:

  1. ⼀种是通过⾎缘关系lineage,当发⽣故障的时候通过⾎缘关系,再执⾏⼀遍来⼀层⼀层恢复数据;
  2. 另⼀种⽅式是通过checkpoint()机制,将数据存储到持久化存储中来恢复数据。
A2 详细说一下hadoop和spark的相同点和不同点?
  1. Hadoop底层使⽤MapReduce计算架构,只有map和reduce两种操作,表达能⼒⽐较⽋缺,⽽且在MR过程中会重复的读写
    hdfs,造成⼤量的磁盘io读写操作,所以适合⾼时延环境下批处理计算的应⽤;
  2. Spark是基于内存的分布式计算架构,提供更加丰富的数据集操作类型,主要分成转化操作和⾏动操作,包括
    map、reduce、filter、flatmap、groupbykey、reducebykey、union和join等,数据分析更加快速,所以适合低时延环境下计算的应
    ⽤;
  3. spark与hadoop最⼤的区别在于迭代式计算模型。基于mapreduce框架的Hadoop主要分为map和reduce两个阶段,两个阶段
    完了就结束了,所以在⼀个job⾥⾯能做的处理很有限;spark计算模型是基于内存的迭代式计算模型,可以分为n个阶段,根据
    ⽤户编写的RDD算⼦和程序,在处理完⼀个阶段后可以继续往下处理很多个阶段,⽽不只是两个阶段。所以spark相较于
    mapreduce,计算模型更加灵活,可以提供更强⼤的功能。
  4. 但是spark也有劣势,由于spark基于内存进⾏计算,虽然开发容易,但是真正⾯对⼤数据的时候,在没有进⾏调优的轻局
    昂下,可能会出现各种各样的问题,⽐如OOM内存溢出等情况,导致spark程序可能⽆法运⾏起来,⽽mapreduce虽然运⾏缓慢,但是⾄少可以慢慢运⾏完。
A3 spark如何保证宕机迅速恢复?
  1. 适当增加spark standby master
  2. 编写shell脚本,定期检测master状态,出现宕机后对master进⾏重启操作

B sql

B1

在这里插入图片描述

select
    m.movie,
    tbl.cate
from
    movie_info m
lateral view
    explode(split(category, ",")) tbl as cate;
B2

在这里插入图片描述
方法一:

select
    t1.base,
    concat_ws('|', collect_set(t1.name)) name
from
    (select
        name,
        concat(constellation, ",", blood_type) base
    from
        person_info) t1
group by
    t1.base;

方法二:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CoreDao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值