Spark知识点2

The Apache Hadoop project devolops open-source software for reliable, scalale, distributed computing.

可靠、大规模、分布式计算和开源!

要想学习Spark必定是绕不过Hadoop的,MapReduce和HDFS构成Hadoop的主要内容,MapReduce用来处理(processing),HDFS用来存储(storage)。

Hadoop要求数据应均匀分布在各个机器上,快速写入磁盘(步步为营)——而这就导致了Hadoop处理数据过慢,数据结构是<key, value>。

Spark

特点:

  • Lazy Computation 计算优化
  • 只读取一次磁盘,然后不断在内存中读取 读取优化
  • Pipelining 流水线操作

在这里说一下,Hadoop的可靠是通过不断读取数据到磁盘来保证,而Spark的可靠是通过快速地在内存中处理数据。(天下武功,唯快不破)这时有人可能疑惑,为什么这也能保证可靠呢?如果机器down掉,那么数据不久丢失了吗?这里Spark就是依靠快,数据down后,它马上重新进行读取,尽管之前读取的数据丢失了。

既然Spark是数据库,那么它就像SQL一样有存储数据的形式,SQL里存储数据是用一张张的表table,而Spark是用分布式数据集RDD。

Spark编程步骤 with RDDs

  1. 创建RDD
  2. Transformations
  3. cache() 缓冲 some RDDs for reuse
  4. Actions
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值