前言
提示:自己学习Pyspark时所记录笔记,以便日后回忆
1.学习spark时的一些 官方API和参考文档
################ Spark Python API and Docs ###################
2.Github code
github源码:https://github.com/apache/spark/tree/master/python
github examples: https://github.com/apache/spark/tree/master/examples/src/main/python
3.自己学习的总结
①.Pyspark学习笔记(二)— spark-submit命令
②.Pyspark学习笔记(三)— SparkContext 与 SparkSession
③.Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(上)
④Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(下)
⑤Pyspark学习笔记(五)RDD操作(一)_RDD转换操作
⑥Pyspark学习笔记(五)RDD操作(二)_RDD行动操作
⑦Pyspark学习笔记(五)RDD操作(三)_键值对RDD转换操作
4.Spark简介
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS。
作为MapReduce的替代品,Spark实现了一个分布式的容错性内存结构,名为弹性分布式数据集-RDD,本系列的博文后续将详细介绍。