pyspark

最新推荐文章于 2024-07-10 21:40:32 发布

Li Yongchang

最新推荐文章于 2024-07-10 21:40:32 发布

阅读量346

点赞数 9

文章标签： spark python

本文链接：https://blog.csdn.net/leethomas/article/details/136077181

版权

spark概述

什么是spark

大数据时代的计算引擎

在大数据时代中，程序需要处理的数据量可以多达TB（1024GB）甚至PB维度（1024TB），这么大的数据量使用单台服务器无法处理，一是单台服务器内存空间有限，二是单台服务器处理时间过长。所以需要将数据分布式的送入多台服务器处理，而如何管理多台服务器，如何拿到运算结果，就是大数据计算引擎需要处理的事情，Spark就是一种大数据计算引擎。

Spark的历史

Spark诞生于美国加州大学伯克利分校AMP实验室，是一种类Hadoop的计算引擎。不同的是，Hadoop的中间运算结果需要存储HDFS（一种文件系统中），因此有大量的磁盘IO开销，会导致运算速度变慢。而Spark会将中间结果存储于内存中。内存的存取速度是明显快于磁盘的。

Spark目前时Apache软件基金会旗下的项目，其官方地址是：Spark官网

Spark本身是用Scala进行开发的，这是一种面向对象的语言。我们在使用Spark开发的时候，可以选择的语言是Java、Python和Scala，一般推荐Scala，开发效率和运行效率都比较高。

Spark的特点

运算速度比Hadoop快很多：得益于使用了DAG（有向无环图）来控制运算流程，Spark的运算速度比Hadoop快很多。
使用简答，Spark提供了80多种高阶操作，而且支持Python、Java、Scala、R和Shell等多种编程语言。
提供了多种工具，Spark包含了Spark SQL、Spark Streaming、Maching Learning Library、GraphX等适用于不同领域的框架。