import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
// 创建 Spark 配置对象
val conf = new SparkConf().setAppName("WordCount").setMaster("local")
// 创建 SparkContext 对象
val sc = new SparkContext(conf)
// 读取输入文件,将每一行拆分为单词并进行计数
val input = sc.textFile("path/to/input/file.txt")
val counts = input
.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _)
// 打印单词计数结果
counts.foreach(println)
// 关闭 SparkContext 对象
sc.stop()
}
}
在上述代码中,需要将"path/to/input/file.txt"
替换为你实际的输入文件路径。
以下是代码运行的步骤:
-
确保你已经安装了Spark,并将Spark的bin目录添加到系统环境变量中。
-
使用任何文本编辑器创建一个新的文件,将上述代码复制并粘贴到文件中。
-
保存文件并将其命名为
WordCount.scala
(或其他你喜欢的名称)。 -
打开终端或命令提示符,并导航到包含代码文件的目录。
-
使用以下命令编译代码:
-
sparkc WordCount.scala
-
如果编译成功,将生成一个名为
WordCount.jar
的可执行文件。 -
运行代码并查看单词计数结果:spark-submit --class WordCount --master local WordCount.jar