python 大数据处理模块_Python大数据处理扩展库pySpark用法精要-CSDN博客

本文链接：https://blog.csdn.net/weixin_39727402/article/details/111446901

Spark是一个开源的、通用的并行计算与分布式计算框架，其活跃度在Apache基金会所有开源项目中排第三位，最大特点是基于内存计算，适合迭代计算，兼容多种应用场景，同时还兼容Hadoop生态系统中的组件，并且具有非常强的容错性。Spark的设计目的是全栈式解决批处理、结构化数据查询、流计算、图计算和机器学习等业务和应用，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，效率提升越大。

Spark集成了Spark SQL(分布式SQL查询引擎，提供了一个DataFrame编程抽象)、Spark Streaming(把流式计算分解成一系列短小的批处理计算，并且提供高可靠和吞吐量服务)、MLlib(提供机器学习服务)、GraphX(提供图计算服务)、SparkR(R on Spark)等子框架，为不同应用领域的从业者提供了全新的大数据处理方式，越来越便捷、轻松。

为了适应迭代计算，Spark把经常被重用的数据缓存到内存中以提高数据读取和操作速度，比Hadoop快近百倍，并且支持Java、Scala、Python、R等多种语言。除map和reduce之外，Spark还支持filter、foreach、reduceByKey、aggregate以及SQL查询、流式查询等等。

扩展库pyspark提供了SparkContext(Spark功能的主要入口，一个SparkContext表示与一个Spark集群的连接，可用来创建RDD或在该集群上广播变量)、RDD(Spark中的基本抽象，弹性分布式数据集Resilient Distributed Dataset)、Broadcast(可以跨任务重用的广播变量)、Accumulator(共享变量，任务只能为其增加值)、SparkConf(用来配置Spark)、SparkFiles(访问任务的文件)、StorageLevel(更细粒度的缓冲永久级别)等可以公开访问的类，并且提供了pyspark.sql、pyspark.streaming与pyspark.mllib等模块与包。

Tag标签: