由于Scala的学习成本有些高,所以,以下的demo都是基于python的。如果想了解spark架构,可以移步到博客点击打开链接
Wordcount介绍
作为类似于hello word一样经典的入门代码,wordcount主要是完成词频统计的,在spark框架中,它仍然是map和reduce两个步骤,但是代码的很简洁。
代码如下:
#!bin/lib/python
import sys
from operator import add
from pyspark import SparkContext
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
if __name__ == "__main__":
//定义上下文环境
sc = SparkContext(appName="Py