Pyspark学习笔记(一)---序言及目录

在这里插入图片描述


前言

提示:自己学习Pyspark时所记录笔记,以便日后回忆

1.学习spark时的一些 官方API和参考文档

################ Spark Python API and Docs ###################

Spark Python API Docs

i.pyspark package

ii.pyspark.sql module

iii.pyspark.ml package

iv.pyspark.streaming module

v.pyspark.mllib package

vi.pyspark.resource module

2.Github code

github源码:https://github.com/apache/spark/tree/master/python
github examples: https://github.com/apache/spark/tree/master/examples/src/main/python

3.自己学习的总结

①.Pyspark学习笔记(二)— spark-submit命令

②.Pyspark学习笔记(三)— SparkContext 与 SparkSession

③.Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(上)

Pyspark学习笔记(四)弹性分布式数据集 RDD 综述(下)

Pyspark学习笔记(五)RDD操作(一)_RDD转换操作

Pyspark学习笔记(五)RDD操作(二)_RDD行动操作

Pyspark学习笔记(五)RDD操作(三)_键值对RDD转换操作

4.Spark简介

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS。
    作为MapReduce的替代品,Spark实现了一个分布式的容错性内存结构,名为弹性分布式数据集-RDD,本系列的博文后续将详细介绍。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值