pyspark
通过pip导入pyspark包。
spark编程有一下步骤:
数据输入
RDD
数据计算
map
from pyspark import SparkConf,SparkContext
import os
os.environ['PYSPARK_PYTHON']="D:/whf/Python/python.exe"
conf=SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc=SparkContext(conf=conf)
rdd=sc.parallelize([1,2,3,4])
rdd2=rdd.map(lambda x:x*10).map(lambda x:x+5)
print(rdd2.collect())
- 需要配置os路径,否则会报错。
flatMap
reduceByKey
filter
distinct
sortBy
数据输出
reduce
collect