从这个名字pyspark就可以看出来,它是由python和spark组合使用的.
相信你此时已经电脑上已经装载了hadoop,spark,python3.
那么我们现在开始对pyspark进行了解一番(当然如果你不想了解直接往下翻找pyspark的使用):
-
背景:
产生与加州大学伯克利分校AMP实验室,2013年6月称为Apache成为孵化项目,使用Scala语言进行实现的,而Scala建立在JAVA之上,
为什么要设计这么一个东西?
为了改善Hadoop的MAP REDUCE的弱点:
1. 交互式和迭代式 2. 在集群多点内存中运行的分布式计算 3. 容错数据集合
为什么要用SPARK?
1. 先进的大数据分布式编程和计算框架 2. 视图替代Hadoop(Spark可以独立与Hadoop,但是他不能替代Hadoop,因为Hadoop现在依然很重要) 3. 内存分布式计算:运行数度快 4. 可以使用不同的语言编程(java,scala,r 和python) 5. 可以从不同的数据源获取数据 可以从HDFS,Cassandea,HBase等等 同时可以支持很多的文件格式:text Seq AVRO Parquet 6. 实现不同的大数据功能:Spark Core,Sparc SQL等等
-
主要部件
1.spark core :包含spark的主要基本功能,所有和Rdd有关的API都出自于spark core
2.spark sql :spark中用于结构话处理的软件包,用户可以在soark环境下使用sql语言处理数据
等等(其他先不介绍)
-
介绍一下spark core
1.它是spark生态圈的核心:
负责读取数据 完成分布式计算
2.包含俩个重要部件
<