【Spark+NLP】14、使用IDEA运行spark小程序 + jar包在spark分布式环境中运行

最新推荐文章于 2022-10-31 10:49:21 发布

PrincessLin

最新推荐文章于 2022-10-31 10:49:21 发布

阅读量358

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/PrincessLin/article/details/100737399

版权

本文档介绍了如何在IDEA中开发一个Spark小程序，统计E盘helloSpark.txt单词频率，然后将其打包成jar，并在Spark分布式环境中运行。在虚拟机上启动Hadoop和Spark，通过master地址提交作业，实现数据的分布式处理，提高计算效率。

摘要由CSDN通过智能技术生成

统计E盘下helloSpark.txt文件中每个单词的出现次数

一、测试代码：

import org.apache.spark.{SparkContext, SparkConf}
object spamm {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("wordcount")
    val sc = new SparkContext(conf)

    val input = sc.textFile("E:/helloSpark.txt")

    val lines = input.flatMap(line => line.split(" "))
    val count = lines.map(word => (word, 1)).reduceByKey { case (x, y) => x + y }

    val output = count.saveAsTextFile("E:/helloSparkRes")
  }
}

二、修改master

因为使用的是spark本地模式，因此需要设置：-Dspark.master=local，详情可参考https://blog.csdn.net/shenlanzifa/article/details/42679577

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PrincessLin

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【Spark+NLP】14、使用IDEA运行spark小程序 + jar包在spark分布式环境中运行

统计E盘下helloSpark.txt文件中每个单词的出现次数一、测试代码：import org.apache.spark.{SparkContext, SparkConf}object spamm { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("wordcou...
复制链接

扫一扫