Spark环境准备

  1. 环境准备

开发环境一共3台linux服务器,要安装elasticsearch集群和spark,spark没有安装机器,以单机模式启动为主,主要目的是学会用spark怎么对多种不同数据源进行计算。

spark可以处理的文件包括:普通文本文件,hadoop文件,mysql,hive,hbase,elasticsearch等。这也基本涵盖了主流的数据格式。

 

    1. 搭建elasticsearch2.3.5集群

由于3台linux服务器已经安装了jdk1.7版本了,因此选择elasticsearch的2.3.5版本安装,5.x版本需要用到jdk1.8了。

新建es用户给elasticsearch集群使用,下载tgz包后解压到用户目录。

[es@cmallpreapp10 elasticsearch-2.3.5]$ pwd

/home/es/elasticsearch-2.3.5

[es@cmallpreapp10 elasticsearch-2.3.5]$ ls

bin  config  data  lib  LICENSE.txt  logs  modules  NOTICE.txt  plugins  README.textile

[es@cmallpreapp10 elasticsearch-2.3.5]$

在3台服务器都下载好/home/es/elasticsearch-2.3.5目录,下面配置集群。

vi config/elasticsearch.yml:

# 集群名称

 cluster.name: elasticsearch

node.name: 10.37.154.83

network.host: 10.37.154.83

discovery.zen.ping.unicast.hosts: ["10.37.154.84:9300", "10.37.154.83:9300", "10.37.154.82:9300"]

discovery.zen.minimum_master_nodes: 2

discovery.zen.fd.ping_timeout: 10s

 discovery.zen.ping.timeout: 10s

discovery.zen.ping.multicast.enabled: false

script.inline: on

 script.indexed: on

这3台服务器的cluster.name设置为同一个值,network.host和node.name设置为本节点的ip和名称。discovery.zen.ping.unicast.hosts参数是设置集群ip地址列表的,将3台机器的ip地址和端口号写在这里,默认9300端口。

在3台服务器分别启动es。

bin/elasticsearch –d  # -d表示后台启动。

最后用curl验证:

[es@cmallpreapp10 elasticsearch-2.3.5]$ curl 10.37.154.82:9200/_cat/nodes

10.37.154.82 10.37.154.82 9 43 0.00 d * 10.37.154.82

10.37.154.84 10.37.154.84 5 25 0.02 d m 10.37.154.84

10.37.154.83 10.37.154.83 5 40 0.01 d m 10.37.154.83

elasticsearch集群安装成功!

 

    1. 安装jdk1.8和scala11.8

下面我们要安装spark环境了。我们采用的是最新的spark2.2.0版本,需要jdk1.8,但linux服务器默认安装的是jdk1.7,因此我们先安装jdk1.8。

新建用户spark,下载jdk1.8 linux版本,解压到用户目录下:

/home/spark/jdk1.8.0_121

将环境变量写到.bashrc。

export JAVA_HOME=/home/spark/jdk1.8.0_121

export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.6

export PATH=$JAVA_HOME/bin:$SPARK_HOME/bin:/home/spark/soft/scala-2.11.8/bin:$PATH

我们要设置SPARK_HOME,scala路径等。执行source .bashrc。然后验证版本。

 

[spark@cmallpreapp10 ~]$ java -version

java version "1.8.0_121"

Java(TM) SE Runtime Environment (build 1.8.0_121-b13)

Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)

[spark@cmallpreapp10 ~]$ scala

Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_121).

Type in expressions for evaluation. Or try :help.

至此,Jdk1.8scala11.8安装成功!

 

    1. 安装spark2.2.0

从官网下载2.2.0版本的spark。用spark用户登录linux服务器,解压到/home/spark目录下:

/home/spark/spark-2.2.0-bin-hadoop2.6

    1. 打包jar工程命令

maven打包:mvn clean scala:compile package 

 

    1. 提交jar包执行

bin/spark-submit  --class package.xxxx ./myxxx.jar  --master spark://10.34.15.82:7077

 

  1. maven操作
    1. 指定中央存储库:

<repositories> 

    <repository> 

        <!-- Maven 自带的中央仓库使用的Id为central 如果其他的仓库声明也是用该Id  就会覆盖中央仓库的配置 -->

<id>mvnrepository</id> 

        <name>mvnrepository</name> 

        <url>http://www.mvnrepository.com/</url> 

        <layout>default</layout> 

        <releases> 

            <enabled>true</enabled> 

        </releases> 

        <snapshots> 

            <enabled>false</enabled> 

        </snapshots> 

    </repository> 

</repositories> 

转载于:https://my.oschina.net/u/778683/blog/1828791

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值