spark环境搭建

Spark环境搭建

一、准备工作

软件版本下载地址
Centos6.5https://www.centos.org/download/
VMWare比较新的版本即可https://my.vmware.com/cn/web/vmware/downloads
JDK1.7.0_79http://www.oracle.com/
hadoop2.6.0http://hadoop.apache.org/releases.html
scala2.11.8http://www.scala-lang.org/download/
sparkspark-1.6.1http://spark.apache.org/downloads.html

VMWare 中安装CentOS比较简单,不再多说。

1.设置ip地址

vi /etc/sysconfig/network-scripts/ifcfg-eth0
BOOTPROTO=static #设置网卡获得ip地址的方式,为static
onboot-yes #开机启动
IPADDR=192.168.1.118
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
DNS1=114.114.114.114
当修改了ip之后,使用命令service network restart重新启动网络服务
然后ping个baidu什么的测试网络是否连通

2.设置主机名

设置主机名的目的是配置文件中可以使用主机名代替ip地址
hostname查看主机名称
vi /etc/sysconfig/network
绑定主机名到ip上
vi /etc/hosts
增加一行记录192.168.1.118 hadoop

3.关闭防火墙及开机自启

service iptables stop
chkconfig --list |grep iptables
chkconfig iptables off

4.设置SSH免密码登录

设置的目的是可以切换主机,在集群模式下尤为方便。

ssh-keygen -t rsa
ssh-copy-id -i localhost
#集群中其他节点增加以下步骤,伪分布无需增加
scp /root/.ssh/id_rsa.pub root@ip:/home
#登陆目的节点,将公钥追加到key中
cat /home/id_rsa.pub >> /root/.ssh/authorized_keys

5.安装jdk

把jdk-7u79-linux-x64.tar.gz放到linux的/usr/local目录下
tar -zxvf jdk-7u79-linux-x64.tar.gz
vi /etc/profile 
#增加两行内容
export JAVA_HOME=/usr/local/jdk1.7.0_79
export PATH=.:$JAVA_HOME/bin:$PATH
#保存退出。执行命令
source /etc/profile
执行命令java -version查看刚才操作是否生效。

6、安装scala

tar -zxvf scala-2.11.8.tgz
vi /etc/profile
#增加
SCALA_HOME=/usr/local/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH
source /etc/profile

二、安装部署

1、HDFS伪分布搭建

修改配置文件etc/hadoop/hadoop-env.sh:
   JAVA_HOME=/usr/local/jdk1.7.0_79
修改配置文件etc/hadoop/core-site.xml:
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.118:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-2.6.0/tmp</value>    
    </property>
    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
</configuration>
修改配置文件etc/hadoop/hdfs-site.xml:

伪分布replication设置为1,默认值为3,是hadoop的可靠性保证。

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

2、安装Yarn

修改配置文件etc/hadoop/mapred-site.xml:
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

如果需要还可以指定JobHistory和WebUI等属性

修改配置文件etc/hadoop/yarn-site.xml:
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

如果需要还可以指定resourcemanager等属性

集群模式下,还需要配置Master和Slaves文件
#Master文件添加
Master 主机名
#Slaves文件添加主机名:主机名1主机名2等等
主机名1
主机名2  
格式化文件系统:
$ bin/hdfs namenode -format
启动hadoop:
./sbin/start-all.sh
查看启动java进程
jps

3、安装spark

#解压
tar -zxvf spark-1.6.1-bin-hadoop2.6.tar.gz
cd spark-1.6.1-bin-hadoop2.6/conf
cp spark-env.sh.template spark-env.sh

vi spark-env.sh
#增加以下
SCALA_HOME=/usr/local/scala-2.11.8
#worker最大内存,影响缓存数据的量
SPARK_WORKER_MEMORY=3g
SPARK_MASTER_IP=192.168.1.118
MASTER=spark://192.168.1.118:7077
export SCALA_HOME SPARK_WORKER_MEMORY SPARK_MASTER_IP MASTER=spark

#配置slaves
cp slaves.template slaves
vi slaves
#增加节点主机名,伪分布的话应该不用增加,默认有localhost
Spark环境搭建使用 Apache Spark是一个开源的大数据处理框架,可以快速、高效地处理大规模的数据集。它支持多种数据处理方式,包括批处理、流处理和机器学习等。 Spark可以在本地模式下运行,也可以在分布式模式下运行。在分布式模式下,Spark可以利用多台服务器的计算资源,进行大规模的数据处理。 本文将介绍如何在本地环境中搭建Spark,并通过一个简单的例子来演示Spark使用Spark环境搭建 在开始之前,需要确认已经安装了Java环境。可以通过以下命令检查Java环境是否已经安装: ``` java -version ``` 如果Java环境没有安装,可以去官网下载并安装Java。 接下来,需要下载Spark。可以从官网下载最新版本的Spark。下载完成后,解压缩到指定目录。 打开终端,进入Spark的bin目录,执行以下命令启动Spark: ``` ./spark-shell ``` 这个命令将启动Spark的交互式Shell。在Shell中,可以输入Spark的API命令进行数据处理。 Spark使用示例 下面,通过一个简单的例子来演示Spark使用。该例子将统计一组数字中的奇数个数。 首先,在Spark的Shell中,创建一个RDD: ``` val nums = sc.parallelize(1 to 10) ``` 这个命令将创建一个包含1到10的数字的RDD。接下来,通过filter()方法,筛选出奇数: ``` val odds = nums.filter(_ % 2 != 0) ``` 这个命令将创建一个包含奇数的RDD。最后,通过count()方法,计算奇数的个数: ``` val count = odds.count() ``` 这个命令将返回奇数的个数。可以通过以下命令输出结果: ``` println(count) ``` 这个例子演示了Spark的基本用法。通过Spark的API,可以快速、高效地处理大规模的数据集。 总结 本文介绍了如何在本地环境中搭建Spark,并通过一个简单的例子来演示Spark使用Spark是一个强大的大数据处理框架,可以帮助我们快速、高效地处理大规模的数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值