本地Spark程序提交到hadoop集群运行流程

最新推荐文章于 2022-12-30 21:41:59 发布

tf_dev

最新推荐文章于 2022-12-30 21:41:59 发布

阅读量2.8k

点赞数 2

文章标签： hadoop spark eclipse scala hadoop集群

本文链接：https://blog.csdn.net/tf_dev/article/details/77197843

版权

本文介绍了如何将Eclipse环境下用Maven和Scala编写的Spark程序提交到Hadoop集群运行。内容包括本地环境准备、测试代码编写、数据文件上传至HDFS、程序打包上传以及集群执行脚本的编写和运行。

摘要由CSDN通过智能技术生成

1.本地环境准备

本文是将eclipse开发环境下的maven+Spark+scala程序移植到集群环境上执行过程，写的很粗糙，见谅。

本地用eclipse编写Spark小程序，完成从txt文件读取数据操作。

本地maven+Spark+scala环境就不多说了，如果配置出问题，就下载最新的eclipse然后从商店装插件吧。

注意在maven的配置文件pom.xml中插入Spark引用：

		<dependency>
			<groupId>org.apache.spark</groupId>
			<artifactId>spark-core_2.10</artifactId>
			<version>1.2.0</version>
		</dependency>

2.编写测试代码

本地数据文件放在data文件夹下，数据文件格式是“性别”,“姓名”。scala代码如下，代码中注释掉的是本地文件读取，替换为HDFS上的路径，代码中制定local不需要修改，会在后面的执行脚本中被覆盖。“*”表示服务器IP，端口为默认端口。

package com.******.scalaprogram

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.rdd.RDD
import scala.collection.mutable.LinkedList

object TestScala {
  d

最低0.47元/天解锁文章

tf_dev

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫