spark 初识

最新推荐文章于 2024-07-17 11:13:52 发布

mizui_i

最新推荐文章于 2024-07-17 11:13:52 发布

阅读量107

点赞数

分类专栏： spark 文章标签： spark 大数据 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mizui_i/article/details/121724350

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一.概述

大数据领域分类
- 离线处理
- 实时处理
大数据开发瓶颈
- IO
  - 绝大多数的瓶颈都卡在这里
- 计算
  - 一般涉及到深度学习,人工智能等领域会遇到计算瓶颈,一般放在GPU上去跑
spark
- mapreduce遇到的瓶颈
  - 操作类型有限,仅支持map和reduce两种操作
  - 编程复杂较高,学习成本高
  - 处理效率低
    - map中间结果xie磁盘,reduce结果xiehdfs,多个mr之间通过hdfs交换数据
    - 任务调度和启动开销比较大
  - 在机器学习,图计算方面支持有限,性能较差
- 定义:一个快速通用的大数据计算引擎
- 特点
  - 速度快
    - 内存计算下,比hadoop快100倍
  - 易用:
    - 有80多个高级的运算符
    - 跨语言
  - 通用性
    - spark提供了大量的库,不同语言的开发者可以无缝的使用这些库
  - 支持多种资源管理器
    - 例如 yarn,mesos,及其自身自带的集群资源管理器
  - 组件丰富
    - spark streaming 实时数据处理
    - sparkSQL 使用sql语句操作spark引擎
    - sparkR: r语言操作spark引擎
    - mlib: 机器学习的算法库
    - graphx: 图计算库

二.生态圈

在hadoop生态圈的地位

在这里插入图片描述
spark自己的生态圈

三.版本与就业前景

发展历程
- 2009年创立于伯克利大学
- 最新版本3版本
- 较为成熟的版本 2.3
spark1和spark2的比较
- 优点:
  - API更加抽象统一
  - 统一DataFrames和DataSets为DataSets，API进行了全部统一
    - 基本定位是低层API编程延用RDD，高级API编程均为DataSets，而大多数情况下用DataSets均可以解决问题。
    - spark-streaming基于spark sql进行了API更高级抽象
    - 对诸多组件中的旧的rdd计算逻辑用DataFrame或DataSet进行了重写优化，并扩充了更多的算法。
- 缺点
  - 对以前版本不是完全兼容，只是绝大部分兼容。
  - 相对于1.6.x来讲，稳定性略差
- 就业前景
  - 岗位需求量和发展前景都很广阔，是未来3-5年的技术应用最大热门

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark 初识

一.概述大数据领域分类离线处理实时处理大数据开发瓶颈 IO 绝大多数的瓶颈都卡在这里计算一般涉及到深度学习,人工智能等领域会遇到计算瓶颈,一般放在GPU上去跑 spark mapreduce遇到的瓶颈操作类型有限,仅支持map和reduce两种操作编程复杂较高,学习成本高处理效率低 map中间结果xie磁盘,reduce结果xiehdfs,多个mr之间通过hdfs交换数据任务调度和启动开销比较大
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

mizui_i 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。