spark:
步骤:
1.start-dfs.sh
2.pyspark
3.[('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c',5),('d',9),('c',7),('d',6)]
4.求出每个字母后面数字出现的平均值
map reduceByKey
第一个如何使上面的数据转换为rdd数据
a. sc.textFile(path):取出指定txt文件中的数据,并转换为rdd数据
b. sc.parallelize(可迭代数据)
自定义数据
datas = [('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c