Spark环境准备

最新推荐文章于 2024-09-11 14:42:31 发布

weixin_34337265

最新推荐文章于 2024-09-11 14:42:31 发布

阅读量85

点赞数

文章标签：大数据 scala java

原文链接：https://my.oschina.net/u/778683/blog/1828791

版权

2019独角兽企业重金招聘Python工程师标准>>>

环境准备

开发环境一共3台linux服务器，要安装elasticsearch集群和spark，spark没有安装机器，以单机模式启动为主，主要目的是学会用spark怎么对多种不同数据源进行计算。

spark可以处理的文件包括：普通文本文件，hadoop文件，mysql，hive，hbase，elasticsearch等。这也基本涵盖了主流的数据格式。

1. 搭建elasticsearch2.3.5集群

由于3台linux服务器已经安装了jdk1.7版本了，因此选择elasticsearch的2.3.5版本安装，5.x版本需要用到jdk1.8了。

新建es用户给elasticsearch集群使用，下载tgz包后解压到用户目录。

[es@cmallpreapp10 elasticsearch-2.3.5]$ pwd

/home/es/elasticsearch-2.3.5

[es@cmallpreapp10 elasticsearch-2.3.5]$ ls

bin config data lib LICENSE.txt logs modules NOTICE.txt plugins README.textile

[es@cmallpreapp10 elasticsearch-2.3.5]$

在3台服务器都下载好/home/es/elasticsearch-2.3.5目录，下面配置集群。

vi config/elasticsearch.yml：

# 集群名称

cluster.name: elasticsearch

node.name: 10.37.154.83

network.host: 10.37.154.83

discovery.zen.ping.unicast.hosts: ["10.37.154.84:9300", "10.37.154.83:9300", "10.37.154.82:9300"]

discovery.zen.minimum_master_nodes: 2

discovery.zen.fd.ping_timeout: 10s

discovery.zen.ping.timeout: 10s

discovery.zen.ping.multicast.enabled: false

script.inline: on

script.indexed: on

这3台服务器的cluster.name设置为同一个值，network.host和node.name设置为本节点的ip和名称。discovery.zen.ping.unicast.hosts参数是设置集群ip地址列表的，将3台机器的ip地址和端口号写在这里，默认9300端口。

在3台服务器分别启动es。

bin/elasticsearch –d # -d表示后台启动。

最后用curl验证：

[es@cmallpreapp10 elasticsearch-2.3.5]$ curl 10.37.154.82:9200/_cat/nodes

10.37.154.82 10.37.154.82 9 43 0.00 d * 10.37.154.82

10.37.154.84 10.37.154.84 5 25 0.02 d m 10.37.154.84

10.37.154.83 10.37.154.83 5 40 0.01 d m 10.37.154.83

elasticsearch集群安装成功！

1. 安装jdk1.8和scala11.8

下面我们要安装spark环境了。我们采用的是最新的spark2.2.0版本，需要jdk1.8，但linux服务器默认安装的是jdk1.7，因此我们先安装jdk1.8。

新建用户spark，下载jdk1.8 linux版本，解压到用户目录下：

/home/spark/jdk1.8.0_121

将环境变量写到.bashrc。

export JAVA_HOME=/home/spark/jdk1.8.0_121

export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.6

export PATH=$JAVA_HOME/bin:$SPARK_HOME/bin:/home/spark/soft/scala-2.11.8/bin:$PATH

我们要设置SPARK_HOME，scala路径等。执行source .bashrc。然后验证版本。

[spark@cmallpreapp10 ~]$ java -version

java version "1.8.0_121"

Java(TM) SE Runtime Environment (build 1.8.0_121-b13)

Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)

[spark@cmallpreapp10 ~]$ scala

Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_121).

Type in expressions for evaluation. Or try :help.

至此，Jdk1.8和scala11.8安装成功！

1. 安装spark2.2.0

从官网下载2.2.0版本的spark。用spark用户登录linux服务器，解压到/home/spark目录下：

/home/spark/spark-2.2.0-bin-hadoop2.6

1. 打包jar工程命令

maven打包：mvn clean scala:compile package

1. 提交jar包执行

bin/spark-submit --class package.xxxx ./myxxx.jar --master spark://10.34.15.82:7077

maven操作
1. 指定中央存储库：

<repositories>

<repository>

<id>mvnrepository</id>

<name>mvnrepository</name>

<url>http://www.mvnrepository.com/</url>

<layout>default</layout>

<releases>

<enabled>true</enabled>

</releases>

<snapshots>

<enabled>false</enabled>

</snapshots>

</repository>

</repositories>

转载于:https://my.oschina.net/u/778683/blog/1828791

weixin_34337265

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。