用Spark做wordcount

最新推荐文章于 2021-03-08 12:01:14 发布

weixin_30897079

最新推荐文章于 2021-03-08 12:01:14 发布

阅读量117

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/SoftwareBuilding/p/9400077.html

版权

 
   #基于python的spark 
  
   #导入pyspark库 
  
   from pyspark import SparkContext 
  
   #配置SparkContext 
  
   sc = SparkContext('local','wordcount') 
  
   #创建一个新的RDD，加载本地文件 
  
   textFile = sc.textFile("file:///usr/local/spark/mycode/TestPackage/wordcount.txt") 
  
   #转换操作 
  
   #flatMap(func)：与map()相似，但每个输入元素都可以映射到0或多个输出结果 
  
   #map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集 
  
   #reduceByKey(func)：应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合 
  
   wordcount = textFile.flatMap(lambda line : line.split(" ") 
  
    ).map(lambda word: (word,1) 
  
    ).reduceByKey(lambda a, b : a+b) 
  
   #行动操作 
  
   #foreach(func) 将数据集中的每个元素传递到函数func中运行 
  
   wordcount.foreach(print) 
  
   结语:从代码和运行结果来看，Spark的代码比hadoop的代码简单了不止一倍，且运行时间也是非常的短