本地Spark程序提交到hadoop集群运行流程

本文介绍了如何将Eclipse环境下用Maven和Scala编写的Spark程序提交到Hadoop集群运行。内容包括本地环境准备、测试代码编写、数据文件上传至HDFS、程序打包上传以及集群执行脚本的编写和运行。
摘要由CSDN通过智能技术生成

1.本地环境准备

本文是将eclipse开发环境下的maven+Spark+scala程序移植到集群环境上执行过程,写的很粗糙,见谅。

本地用eclipse编写Spark小程序,完成从txt文件读取数据操作。

本地maven+Spark+scala环境就不多说了,如果配置出问题,就下载最新的eclipse然后从商店装插件吧。

注意在maven的配置文件pom.xml中插入Spark引用:

		<dependency>
			<groupId>org.apache.spark</groupId>
			<artifactId>spark-core_2.10</artifactId>
			<version>1.2.0</version>
		</dependency>

2.编写测试代码

本地数据文件放在data文件夹下,数据文件格式是“性别”,“姓名”。scala代码如下,代码中注释掉的是本地文件读取,替换为HDFS上的路径,代码中制定local不需要修改,会在后面的执行脚本中被覆盖。“*”表示服务器IP,端口为默认端口。

package com.******.scalaprogram

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.rdd.RDD
import scala.collection.mutable.LinkedList

object TestScala {
  d
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值