![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
读书笔记:《Spark快速大数据分析》
iamxiaofeifei
Thinking and coding...
展开
-
第二章:Spark下载与入门
本章在本机模式下单机运行。 Spark本身是Scala写的,运行在JAVA虚拟机(JVM)上,支持Scala、Python、JAVA接口。1. 下载Sparkspark.apache.org 官网直接下载。 spark支持本地模式,也就是非分布式,还支持运行在mesos,yarn上也可以运行在Spark自带的独立调度器上。2. Spark中Python和Scala的SHELL# 打开spark-原创 2017-08-07 23:55:43 · 797 阅读 · 0 评论 -
第3章:RDD编程
RDD:弹性分布式数据集(Resilient Distributed Dataset),就是分布式的元素集合,Spark对数据的核心抽象。 Spark中对数据的操作不外乎创建RDD,转化RDD,调用RDD操作进行求值。 Spark自动将数据分发到集群上,并将操作并行化执行。1. RDD基础RDD是不可变的分布式对象集合,每个RDD被分为多个分区,这些分区运行在集群的不同节点上。2. RDD创建(原创 2017-08-09 13:19:15 · 354 阅读 · 0 评论 -
第一章:Spark数据分析导论
1.Spark是什么? Spark是一个快速而通用的集群计算平台。 快速: - spark扩展了MapReduce模型,更高效地支持更多计算模式,包括交互式查询和流处理。 - Spark能在内存中进行计算,即使是必须在磁盘上进行计算,spark仍然比MapReduce高效。 通用: - 适用于多种分布式计算场景,包括批处理、迭代算法、交互式查询、流处理。原创 2017-08-03 16:21:58 · 434 阅读 · 0 评论