idea写java spark程序,Spark : 在IDEA中用scala编写Spark的WordCount程序并提交运行

最新推荐文章于 2022-11-11 17:48:15 发布

weixin_39964899

最新推荐文章于 2022-11-11 17:48:15 发布

阅读量130

点赞数

文章标签： idea写java spark程序

该博客详细介绍了如何在IDEA中创建一个Maven工程，添加Scala和Spark依赖，实现WordCount程序。程序读取HDFS上的数据，通过Spark进行单词统计，并将结果保存回HDFS。最后，通过spark-submit命令提交并执行任务。

摘要由CSDN通过智能技术生成

使用IDEA新建maven工程，添加相关依赖：

1.8

2.11.11

2.3.0

2.7.7

utf-8

org.scala-lang

scala-library

${scala.version}

org.apache.spark

spark-core_2.11

${spark.version}

org.apache.hadoop

hadoop-client

2.7.7

给项目添加scala支持，新建Scala Object文件

编写程序：

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object WordCountDemo {

def main(args: Array[String]): Unit = {

//创建Spark配置对象SparkConf，设置应用程序名字

val conf = new SparkConf().setAppName("WordCountDemo")

//创建spark执行入口

val sc = new SparkContext(conf)

//指定以后从哪里读取数据创建RDD(弹性分布式数据集)

val lines: RDD[String] = sc.textFile(args(0))

//切分压平

val words: RDD[String] = lines.flatMap(_.split(" "))

//将单词和1组合

val wordAndOne: RDD[(String, Int)] = words.map((_, 1))

//按key进行聚合

val reduced: RDD[(String, Int)] = wordAndOne.reduceByKey(_+_)

//按value进行排序

val sorted: RDD[(String, Int)] = reduced.sortBy(_._2, false)

//将结果保存到hdfs中

sorted.saveAsTextFile(args(1))

//释放资源

sc.stop()

}

执行maven的打包命令

将打包上传至服务器

开启hdfs和spark，将输入文本上传至hdfs

执行任务：

/soft/spark/bin/spark-submit --class com.wby.demo.WordCountDemo /root/jars/spark-1.0-SNAPSHOT.jar hdfs://192.168.124.132:9000/test/w hdfs://192.168.124.132:9000/test/res

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39964899

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

java spark wordcount_在IDEA中编写Spark的WordCount程序

weixin_29808375的博客

02-19

300

1 [root@master hadoop]# bin/spark-submit --class com.bie.WordCount --master spark://master:7077 --executor-memory 700M --total-executor-cores 2 /home/hadoop/data_hadoop/sparkWordCount-1.0-SNAPSHOT.jar...

IDEA创建基于Scala语言的Spark Maven项目及WordCount

hannah_7的博客

02-27

379

IDEA创建基于Scala语言的Spark Maven项目及WordCount 前提概要须知：使用的 Spark 版本为 3.0.0，默认采用的 Scala 编译版本为 2.12。一、创建Maven项目 1.1、下载有 Scala 开发插件 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6PU6Q9AE-1612778300676)(C:\Users\Hannah\AppData\Roaming\Typora\typora-user-images\image-2021020

参与评论您还未登录，请先登录后发表或查看评论

java-spark:代码段以使用Java编写Apache Spark应用程序

05-02

Java火花以下是在Hadoop Eco System中执行应用程序的步骤步骤1：在Hadoop分布式文件系统（HDFS）中创建目录，以使用以下命令放置输入文件以进行处理。 hadoop fs -mkdir <your>/input/ 步骤2：使用以下命令在HDFS中复制input_data.csv文件 hadoop fs -put /root/java-spark/input/input_data.csv <your>/input/ 步骤3：使用以下命令构建项目 cd <project>/java-spark/ mvn clean install 步骤4：通过发出spark-submit命令执行 spark-submit --class com.khodeprasad.AppExecutor <project_locatio

大数据分析学习第十三课实战使用Idea创建java程序运行spark的wordcount

猫头鹰数据的专栏

07-30

574

开发工具:Intellij IDEA Java版本:JDK1.8以上在pom.xml文件中添加我们需要的jar包:spark-core  <properties> <spark.version>2.2.3</spark.version> </properties>  <dependency> <groupId&

IDEA+scala+spark程序开发流程

沈春旭的博客

08-06

3972

1. 新建JAVA工程 2. 设置scala SDK File -> Project Struction -> Libraries -> +; 添加Scala SDK。如果没有配置过系统的scala SDK, 指定系统中安装的scala位置。 3. 导入spark libraries File -> Project Struction -> Librar...

IDEA 本地运行Spark

u014034497的专栏

05-04

3758

IDEA 本地运行Spark1、背景2、环境准备3、具体流程3.1 IDEA创建maven项目3.2 pom.xml配置3.3 Demo程序示例3.4 结果输出3.5 总结改进 1、背景主要用于本地阅读Spark源码，同时也可以用于实战运行spark程序 2、环境准备 jdk : 1.8+ scala: 2.12+ （Spark 3x要求 scala版本2.12） 3、具体流程 3.1 IDEA创建maven项目 File->Maven->Next 注意事项：配置maven 国内镜

IDEA中scala实现word_count，sbt打jar包，并发送linux中spark运行(sbt打包详细)

weixin_41512727的博客

04-24

1630

文章目录0-背景1-spark安装2-IDEA开发3-参考 0-背景最近因为业务需求，开始鼓捣下kafka和spark。因为也是第一次做这方面的内容，而且没玩过java和scala。所以这个word count的例子，鼓捣了近两天才出结果。整个流程如下：首先搭建虚拟机，安装ubuntu。然后在linux中安装spark。最后再本地的IDEA中开发scala，并打包jar包，发送到spark系统...

spark 安装入门（一）scala spark单词统计 ; java spark单词统计spark反转排序

zengxianglei的博客--手指星辰奈何天！

05-25

2019

spark 安装入门这篇博客可以让你学习到三点知识： 1.熟悉spark的相关概念。 2.搭建一个spark集群。 3.编写简单的spark应用程序。 spark是一个针对于大规模数据处理的统一分析引擎。为什么要学spark？一句话:spark处理速度比mapreduce快很多。具体快的原因： Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spa...

大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

黑泽君

04-21

592

大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

java读写与spark读写代码差异

qq_34560135的博客

04-20

248

事情是这样的：需求：读取一个swagger文件，构造出3w个服务路径的文件。用java原生文件流：代码如下： public static String readJson(String filePath) throws FileNotFoundException { String jsonStr=""; try { File jsonFile=new File(filePath); FileReader fileReader=

IDEA中Spark配置

最新发布

xing_mo的博客

11-11

2418

Spark快速配置

Spark部分累加求和的理解学习（原理+图解+代码）

wyqwilliam的博客

07-23

4562

一.图解二.原理将executor端的数据计算之后，最后返回到driver端。一般是累加数字，也可以累加String类型，但是需要自定义。注意：累加器只能在driver端定义，初始化，在executor端更新使用，在executor端获取值。在executor中不能accumulator.value()获取值，而要直接用accumulator获取。在driver端获取...

Spark3.2教程（四）IDEA下Scala开发Spark词频统计

Java朱老师博客

12-18

2874

本篇文章，讲解在Windows10下，使用IDEA搭建好的Maven Scala项目进行本地的Spark词频统计的项目开发工作。在上一篇文章中创建好的Module的package下，新建Scala类，选择object形式：

Spark环境搭建以及基本的算子操作

洗脚看电视的博客

09-12

418

import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SparkSession import org.apache.spark._ import org.apache.spark.rdd.RDD import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.functions._ object firstDemo{ Log.

spark使用IDEA实现算子

qq_43476430的博客

04-15

2047

一、IDE安装Scala插件，并指定maven地址 1、IDE安装Scala插件二、编辑我们的 pom.xml 文件内容如下： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch.

Spark学习记录2

weixin_45772744的博客

07-18

1754

RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。a.存储的弹性内存与磁盘的自动切换；b.容错的弹性数据丢失可以自动恢复；c.计算的弹性计算出错重试机制；d.分片的弹性可根据需要重新分片。分布式。.........

Intellij idea使用java编写并执行spark程序

yhao2014的专栏

03-13

8991

初学使用Intellij idea编写spark程序。由于公司要求用java编写，但网上基本又是用scala来写spark程序（虽然确实用scala来写比java好很多），摸索之后决定把整个流程记录下来.

Spark之wordcount程序（Java Scala）

weixin_34353714的博客

09-22

602

1.Java/** 使用java开发本地测试的wordcount程序 @author Administrator* */public class WordCountLocal { public static void main(String[] args) { // 编写Spark应用程序 // 本地执行，是可以执行在eclipse...

IntelliJ IDEA中运行Java/Scala/Spark程序的步骤与技巧

"在IntelliJ IDEA中创建和运行java/scala/spark程序的方法" 在现代软件开发中，IntelliJ IDEA是一款备受推崇的集成开发环境（IDE），尤其对于Java和Scala开发者而言。本文将深入探讨如何在IntelliJ IDEA中创建和...