1. 学习spark的第一个程序 wordcount
先说下本人的开发环境和工具:
- win10
- spark 1.6
- python 2.7
- pycharm
什么是word count?单词计数
为什么第一个程序是它,helloword呢?基本上是学习hadoop的mapreduce或spark入门的第一个程序,地位类似于学习写代码时的hello world。
言归正传
from pyspark import SparkConf, SparkContext
# 创建SparkConf和SparkContext
conf = SparkConf().setMaster("local").setAppName("lichao-wordcount")
sc = SparkContext(conf=conf)
# 输入的数据
data=["hello","world","hello","word","count","count","hello"]
# 将Collection的data转化为spark中的rdd并进行操作
rdd=sc.parallelize(data)
resultRdd = rdd.map(lambda w