WordCount在spark运行

最新推荐文章于 2023-07-07 17:50:29 发布

程序猿小飞

最新推荐文章于 2023-07-07 17:50:29 发布

阅读量135

点赞数

分类专栏： spark Wordcount

本文链接：https://blog.csdn.net/qq_43617838/article/details/88035512

版权

spark 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

Wordcount

1 篇文章 0 订阅

订阅专栏

需要提前准备Hadoop的集群和是spark集群！！！
WordCount在本地运行

package com.ect.scala
import org.apache.spark.{SparkConf, SparkContext}

object WordCountScala {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("WordCount")
      .setMaster("local")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("f:/all/a.txt")
    val words = lines.flatMap{line => line.split( ",")}
    val  paris = words.map{word => (word,1)}
    val  wordCount = paris.reduceByKey(_+_)
    wordCount.foreach(wordCount=>println(wordCount._1 +  "  appeared  " + wordCount._2 + "  times .  " ))

 sc.stop()
  }
  }

WordCount在linux运行
先打包在传在linux上，把备用文件上传到hdfs（Hadoop fs -put /opt/a.txt）
1)执行脚本vim a.txt

/usr/local/spark/bin/spark-submit \                               
--class com.ect.scala.WordCountScala \                              class后面写类的路径
--num-executors 3 \
--driver-memory 100m \
--executor-memory 100m \
--executor-cores 3 \
/opt/spark-1.0-SNAPSHOT.jar \                                             包名路径

2）把备用文件上传到hdfs（Hadoop fs -put /opt/a.txt）

a.txt
hello,wangcc
hello,yaoshuai
hello,xiaoqi
hello,xiaoqi
hello,mayun
hello,mayun
hello,xjp
hello,xjp
hello,xjp
hello,boss
hello,bios

package com.ect.scala

import org.apache.spark.{SparkConf, SparkContext}

object WordCountScala {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("WordCount")
      .set("spark.testing.memory", "2147480000")
    //      .setMaster("local")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("/a.txt")
    val words = lines.flatMap{line => line.split( ",")}
    val  paris = words.map{word => (word,1)}
    val  wordCount = paris.reduceByKey(_+_)
    wordCount.foreach(wordCount=>println(wordCount._1 +  "  appeared  " + wordCount._2 + "  times .  " ))

    sc.stop()
  }
}

程序猿小飞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
WordCount在spark运行

需要提前准备Hadoop的集群和是spark集群！！！WordCount在本地运行package com.ect.scalaimport org.apache.spark.{SparkConf, SparkContext}object WordCountScala { def main(args: Array[String]): Unit = { val conf = new...
复制链接

扫一扫