Spark wordcount开发并提交到单机(伪分布式)运行

最新推荐文章于 2021-05-07 23:13:19 发布

Juvenile_xf

最新推荐文章于 2021-05-07 23:13:19 发布

阅读量485

点赞数

分类专栏： java spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_31230915/article/details/78069180

版权

java 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

spark

1 篇文章 0 订阅

订阅专栏

使用的ide是idea

packagecom.fsl

importorg.apache.spark.{SparkConf,SparkContext}

/**

Created by Juvenile on 2017/2/24.
统计字符出现次数

objectWordCountScala {

defmain(args: Array[String]) {

if(args.length <1) {

System.err.println(“Usage: “)

System.exit(1)

}

valconf =newSparkConf()

valsc =newSparkContext(conf)

valline = sc.textFile(args(0))

line.flatMap(.split(“\t”)).map((,1)).reduceByKey(_ + _).collect.foreach(println)

sc.stop

}

导出成jar包。

上次到集群服务器: mySparkTest-1.0.jar

进入spark文件夹下执行 spark-submit –name WordCountScala –class com.fsl.WordCountScala –master spark://master:7077 –executor-memory 1G –total-executor-cores 1 /root/mySparkTest-1.0.jar hdfs://master:9000/user/data.txt 即可

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Juvenile_xf

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark 单机和集群环境部署教程

qq_42568323的博客

08-07

1639

通过以上步骤，我们成功部署了 Spark 单机和集群环境，并实现了一个简单的 Word Count 应用。Spark 提供了强大的分布式计算能力，可以处理大规模数据，并支持多种编程语言。

hadoop学习(二)-----配置hadoop单机伪分布式模式

happyAnger6的专栏

03-15

939

(1).修改hadoop的核心配置文件core-site.xml.主要是配置HDFS的地址和端口号。 fs.default.name #HDFS NameNode的ip和端口 hdfs://localhost:9000 hadoop.

参与评论您还未登录，请先登录后发表或查看评论

以wordcount为例，将IDEA中的程序作业提交到HDFS集群或者伪分布式遇到的问题

muyingmiao的专栏

09-02

356

之前很多人跑mapreduce任务只知道在在本地打成jar，提交到hadoop集群上去跑任务，如果出现错误往往很难定位错误，所以远程debug是开发中不可或缺的技能。通常大家都是在本地写好mapreduce任务，希望能在window环境下的IDEA中直接运行。运行环境为：win7，IDEA2017.1.3HDFS环境为VM虚拟机，hadoop伪分布式 以一个比较简单的wordcount为例子遇到...

2 weekend110的mapreduce介绍及wordcount + wordcount的编写和提交集群运行 + mr程序的本地运行模式...

weixin_33694620的博客

09-22

130

把我们的简单运算逻辑，很方便地扩展到海量数据的场景下，分布式运算。 Map作一些，数据的局部处理和打散工作。 Reduce作一些，数据的汇总工作。这是之前的，weekend110的hdfs输入流之源码分析。现在，全部关闭断点。 //4个泛型中，前两个是指定m...

Hadoop伪分布式模式配置并运行wordcount

Wxp_csdn的博客

05-22

970

Hadoop伪分布式模式配置并运行wordcount 只有一台虚拟机bigdata128，既是namenode又是datanode。一、基础安装配置首先要完成jdk+hadoop的安装配置；点击以下链接完成配置。 https://blog.csdn.net/Wxp_csdn/article/details/90439386 二、修改以下5个配置文件在与之间添加如下property： ①co...

Spark 入门经典 WordCount 单机/伪分布式

Crystal_Zero的博客

03-25

2458

Spark 单机版本安装安装JavaWin7 下如何配置java环境变量安装scalahttp://www.scala-lang.org/ 按步骤点确定即可此时需要注意 hadoop2.6.x 只能使用 scala2.10.x ，否则会报错无法运行Intellij IDE 开发下载后安装scala插件下载spark预编译版本将spark-assembly-1.6.1-hadoop2.6.0

Eclipse下伪分布式运行hadoop例子wordcount

Kaiwii的专栏

07-28

3139

其他版本测试均无效：本人使用一下配置，成功运行!eclipse版本：eclipse-jee-europa-winter-linux-gtk.tarHadoop版本：hadoop-0.20.2Linux版本：ubuntu 8 一、安装JDK-6，SSH(略，google一把就是了)

Spark安装配置（本地模式、伪分布式、集群模式--standalone,yarn模式）

weixin_47134119的博客

05-07

2005

Spark安装配置文章目录Spark安装配置2.1 Spark安装2.2 本地模式2.3 伪分布式2.4 集群模式--Standalone模式2.4.1 Standalone 配置2.4.2 运行模式(cluster / client) 2.1 Spark安装官网地址：http://spark.apache.org/ 文档地址：http://spark.apache.org/docs/latest/ 下载地址：http://spark.apache.org/downloads.html 下载Spa

基于单机的Hadoop伪分布式运行模拟实现

12-08

本篇文章将详细介绍如何在Windows操作系统环境下，对Hadoop进行编译并设置一个单机上的伪分布式运行环境，这对于初学者理解Hadoop的工作原理及其运行机制具有极大的帮助。首先，我们需要了解Hadoop的基本概念。...

hadoop scala spark 例子项目，运行了单机wordcount

07-28

在这个项目中，Maven可能被用来管理Scala、Spark和其他库的依赖，并生成可执行的jar文件，以便于在集群或单机上运行WordCount。在单机模式下运行这个项目，通常意味着开发者在本地环境中测试和调试代码，而不是在...

Hadoop的wordcount程序的简单使用(伪分布式的)

编程学习者的博客

10-13

1773

安装hadoop的版本在这里查看：本人使用的hadoop版本以及安装 1.向hadoop中创建文件夹input cd bin/ hadoop fs -mkdir input/ 2.查看常见的input文件夹 hadoop fs -ls / 通过web页面查看 3.创建文件并上传到hadoop中 1.创建file文件夹 cd .. mkdir file 2.在file文件夹中创建file...

spark环境搭建，伪分布式、集群

哈哈的博客

06-02

513

spark集群环境搭建，整理中

Spark作业三种模式提交

htfenght的博客

01-10

1822

北风网spark学习笔记 Spark作业三种模式提交 local模式提交spark作业 spark作业运行集群，有两种部署方式，一种是Spark Standalone集群，还有一种是YARN集群+Spark客户端提交spark作业的两种主要方式，就是Spark Standalone和YARN，这两种方式，分别还分为两种模式，分别是client mode和cluster mode 在体验stan...

提交一个Spark WordCount到集群运行

weixin_43125677的博客

08-03

657

Spark WordCount import org.apache.spark.{SparkConf, SparkContext} object Test { def main(args: Array[String]): Unit = { var conf = new SparkConf().setAppName("WordCount").setMaster("local") ...

hadoop_spark伪分布式实验环境搭建和运行实例详细教程

weixin_30487201的博客

03-19

566

hadoop+spark伪分布式环境搭建安装须知单机模式（standalone）：该模式是Hadoop的默认模式。这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。伪分布模式（Pseudo-Distributed Mode）这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点，其中所有的守护进程都运行在同一台机器上。...

windows下用Eclipse开发Wordcount程序并生成jar包上传到hadoop集群去执行

ASN_forever的博客

07-17

3569

因为我安装的是centos7 服务器版本而非桌面版本，因此没办法在namenode所在虚拟机上安装Eclipse等开发工具。本来想到可以在本地Eclipse中添加hadoop插件，然后就可以直接在本地开发和测试，但无奈鼓捣了一天最后以失败告终。因此改变思路，想到用在本地开发后生成jar包，然后发送到namenode节点去运行的方式。这种方式与上一种的区别就是没法在本地运行（因为没有配置hadoop...

Spark学习（单机本地提交作业）

三人行必有我师,手写三行必有所悟

09-06

3689

1）spark-1.3.0-bin-hadoop2.4.tar 解压后是可以直接在Windows下运行的，当然这时只是单机模式。2）本地提交的方法是在Spark的解压主目录下（CMD）进入，输入：bin\spark-submit --class ScalaMain ./test/ScalaJarT.jar local其中ScalaMain是类名（记得命名空间不能丢，我的这个类是没有命名空间的），本

spark的作业提交流程

宝罗Paul 的博客

04-26

1552

spark的作业调度分为3个级别：DAG调度器 ==> TaskScheduler(任务调度器) ==> SchedulerBackend(后台调度器) 一、DAGScheduler 当我们写好应用程序，程序里面有sc.count()或sc.collect()时，或者我们在scala shell发出的命令中有sc.count()或sc.collect()时（

配置Hadoop伪分布式模式并运行WordCount示例操作实例演示步骤

WEL测试

08-31

6648

该篇博客是基于hadoop单机模式的构建成功的前提下，进行直接操作的，关于 hadoop单机模式的构建可以参考为上一篇博文：http://blog.csdn.net/henni_719/article/details/77718642 PS：全程以root的角色进行配置安装第一部分：伪分布式配置伪分布模式主要涉及一下配置信息： (1)修改hado

Ubuntu14.04上Spark1.2.0单点及伪分布式安装教程

"该文档是关于Spark 1.2.0在Ubuntu 14.04上进行单点和伪分布式安装的总结，适合初学者参考。内容包括Java、Scala、SSH、Hadoop的安装以及Spark的安装和IDEA中Scala开发Spark的环境配置。" 在Spark的早期版本，如...