hadoop spark环境搭建及idea scala maven集成开发spark任务

最新推荐文章于 2024-05-17 14:35:24 发布

cauclilin

最新推荐文章于 2024-05-17 14:35:24 发布

阅读量2.7k

点赞数

分类专栏：分布式计算技术工程文章标签： hadoop scala spark maven idea

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cauclilin/article/details/76826948

版权

1.项目背景

公司目前已经部署了分布式文件存储和计算平台（已经上线hadoop，spark，hbase等），业务数据已经以文件的形式存储在hdfs中，业务部门经常提出各种数据需求，因此需要基于spark计算平台开发各种计算任务。公司目前的分布式平台只有一套线上环境，为了避免在学习、测试spark开发的过程中对线上环境造成污染，经过运维同事的规划，提供一台配置较高的pc用于搭建单机（standalone模式）的hadoop + spark测试环境，希望通过该环境了解和熟悉 hadoop,spark的运行模块，机制，流程以及常用操作命令;通过ide开发spark的经典例子WordCount向spark平台提交计算和查看结果。（个人qq：498676231欢迎同仁交流和指正下面博客内容中的问题和错误）

2.主要技术和工具清单 ref-software-list.1

os：Linux-centos-6.5

maven：ver-3.1.0

jvm：ver-jdk-1.7.0_79（不要使用1.8.x，会导致编译失败）

scala：ver-2.10.5

hadoop：ver-2.6.0-cdh5.12.0

spark：ver-1.6.0

idea：ver-2016.3

3.hadoop + spark 环境搭建简单说明

安装过程中的工具清单见 ref-software-list.1，maven,jdk,scala的安装过程比较简单，去各自官网下载对应版本的软件然后解压并配置环境变量即可正常使用了。下面简单介绍一下hadoop，spark的standalone模式的安装（安装在单台主机，伪集群模式），安装方式一般有两种：

1.去官网下载编译好的对应版本的软件，解压到指定目录下，配置环境变量和各自的配置文件，然后启动相应的服务即可。

2.通过linux自带的安装助手工具安装，以本次centos中的实际操作为例，通过

yum install softname1 softname2 ... -y #如果不是root用户sudo yum install softname1 softname2 ... -y

安装相关的平台组件，详细的帖子可以参考

(1) 使用CDH5安装Hadoop集群

(2) 使用yum源安装CDH Hadoop集群

(3) Spark安装和使用

(4) Monitoring and Instrumentation

(5) Spark history Server产生背景

这里补充几个问题点：

q1. yum install 命令安装软件时，命令行中没有显示指定软件版本， ref-software-list.1中我们要安装指定版本的hadoop和yarm该如何控制版本信息呢

a1.

通过配置yum源指定hadoop的版本为cdh5, yum install 命令会根据配置的baseurl自动去适配hadoop的版本，因spark的安装依赖hadoop，hadoop安装完成（版本确定），安装spark时会根据已有的hadoop适配其自身的版本。

本次安装hadoop yum源配置如下，在/etc/yum.repos.d/cdh5.repo （如果没有对应的文件或者目录需要自己创建）添加如下内容：

# Packages for Cloudera's Distribution for Hadoop, Version 5, on RedHat or CentOS 6 x86_64

name=Cloudera's Distribution for Hadoop, Version 5

baseurl= https://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5/

gpgkey = https://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

gpgcheck = 1

q2. 本次单机模式安装的组件

a2.

hadoop-hdfs hadoop-client hadoop-hdfs-namenode hadoop-hdfs-datanode spark-master spark-worker spark-history-server

安装命令如下：

hadoop-hdfs 相关安装命令

yum install hadoop hadoop-hdfs hadoop-client hadoop-doc hadoop-debuginfo hadoop-hdfs-namenode

yum install hadoop-hdfs-datanode -y

spark 相关安装命令

yum install spark-core spark-master spark-worker spark-history-server -y

q3. 需要修改的相关配置文件

a3.

/etc/hosts 中追加 172.168.xx.xx cdh1

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hadoop spark环境搭建及idea scala maven集成开发spark任务

hadoop + spark 环境搭建以及演示scala + spark + maven 项目集成打包向spark 平台submit任务 spark-history-server 配置和查看 spark 历史任务执行记录
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。