spark 初识

一.概述

  • 大数据领域分类
    • 离线处理
    • 实时处理
  • 大数据开发瓶颈
    • IO
      • 绝大多数的瓶颈都卡在这里
    • 计算
      • 一般涉及到深度学习,人工智能等领域会遇到计算瓶颈,一般放在GPU上去跑
  • spark
    • mapreduce遇到的瓶颈
      • 操作类型有限,仅支持map和reduce两种操作
      • 编程复杂较高,学习成本高
      • 处理效率低
        • map中间结果xie磁盘,reduce结果xiehdfs,多个mr之间通过hdfs交换数据
        • 任务调度和启动开销比较大
      • 在机器学习,图计算方面支持有限,性能较差
    • 定义:一个快速通用的大数据计算引擎
    • 特点
      • 速度快
        • 内存计算下,比hadoop快100倍
      • 易用:
        • 有80多个高级的运算符
        • 跨语言
      • 通用性
        • spark提供了大量的库,不同语言的开发者可以无缝的使用这些库
      • 支持多种资源管理器
        • 例如 yarn,mesos,及其自身自带的集群资源管理器
      • 组件丰富
        • spark streaming 实时数据处理
        • sparkSQL 使用sql语句操作spark引擎
        • sparkR: r语言操作spark引擎
        • mlib: 机器学习的算法库
        • graphx: 图计算库

二.生态圈

在hadoop生态圈的地位

在这里插入图片描述
spark自己的生态圈

在这里插入图片描述
三.版本与就业前景

  • 发展历程
    • 2009年创立于伯克利大学
    • 最新版本3版本
    • 较为成熟的版本 2.3
  • spark1和spark2的比较
    • 优点:
      • API更加抽象统一
      • 统一DataFrames和DataSets为DataSets,API进行了全部统一
        • 基本定位是低层API编程延用RDD,高级API编程均为DataSets,而大多数情况下用DataSets均可以解决问题。        
        • spark-streaming基于spark sql进行了API更高级抽象
        • 对诸多组件中的旧的rdd计算逻辑用DataFrame或DataSet进行了重写优化,并扩充了更多的算法。
    • 缺点
      • 对以前版本不是完全兼容,只是绝大部分兼容。
      • 相对于1.6.x来讲,稳定性略差
    • 就业前景
      • 岗位需求量和发展前景都很广阔,是未来3-5年的技术应用最大热门

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

mizui_i

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值