1、Spark是用于大规模数据处理的,基于内存计算的统一分析引擎。
2、下载:清华大学镜像下载
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
3、使用:构建执行入口对象
# 要使用PySpark库完成数据处理,首先要构建一个执行环境入口对象 SparkContext类对象
# 1、导包
from pyspark import SparkConf,SparkContext
# 2、创建SparkConf类对象
# setMaster('local[*]'):设置环境模式(本地或者集群)
#setAppName('test_spark'):项目名称
conf = SparkConf().setMaster('local[*]').setAppName('test_spark')
# 3、基于SparkConf类对象创建SparkContext对象
sc = SparkContext(conf=conf)
#测试打印PySpark运行版本
print(sc.version)
# 5、停止SparkContext对象运行
sc.stop()
4、编程模型:
4.1、编程模型之数据输入:RDD对象
4.1、Python普通数据输入:
# 1、导包
from pyspark import SparkConf,SparkContext
# 2、创建SparkConf类对象
conf = SparkConf().setMaster('local[*]').setAppName('test_spark')
# 3、基于SparkConf类对象创建SparkContext对象
sc = SparkContext(conf=conf)
# 通过parallelize方法将Python对象加载到spark内,称为rdd对象
rdd1 = sc.parallelize([1,2,3,4,5])
rdd2 = sc.parallelize((1,2,4,5,3))
rdd3 = sc.parallelize('helloword')
rdd4 = sc.parallelize({
1,2,3,4,5})
rdd5 = sc.parallelize({
"name":'hmm',"age":12