Apache Spark 之 入门笔记

Spark 是什么 ## [草稿 - 待整理]

Spark is a java virtual machine(JVM) based distributed data processing engine that scales. And it is fast compare to other data processing framework
Spark的内核是一套通用的执行引擎。Spark平台基于该引擎的其他功能包括:
Spark Core is the general execution engine for the Spark platform that other functionality is built atop
Mesos文献

  • 高速内存计算能力
    - in-memory computing capabilities deliver speed
  • 广泛的用例支持
    - general execution model supports wide variety of use cases
  • 易于开发
    - ease of development – native APIs in Java, Scala, Python (+ SQL, Clojure, R)
SituationTrade-offTech
Cheap MemoryRecomputeRDD
Cheap StorageReplicateDFS
Cheap NetworkReferenceURI

RDD: Resilient Distributed Dataset
DFS:Distributed File System

Spark 优势

  • 比Hadoop MapReduce快100倍
  • 利用了工作节点的主要内存进行处理
  • 防止了磁盘不必要的I/O运行
  • 在应用程序层串联任务的能力
  • 最小化磁盘书写数量

Spark 效率

  • 使用DAG(Directed Acyclic Graph) 有向无环图

Spark 安装

Scala, Python, R –> REPL

—————————————————————————–

Spark 集成

这里写图片描述
- Databricks Cloud
-这里写图片描述
- Spark + Hadoop + Hbase + etc.
这里写图片描述
- Spark + PyData
- Kafka + Spark + Cassandra
- Spark + ElasticSearch
- Spark + Play
- Spark +Mesos
-

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值