使用 spark 之前需要安装如下环境:
一、安装包下载
1、jdk 下载
本文使用的是 jdk1.8.0_91 ,直接官网下载的,或者直接在这里下载(https://download.csdn.net/download/ocean111best/11257045),建议使用 jdk1.8 以上版本,低版本问题较多。
2、maven 下载
本文使用的是 apache-maven-3.6.0 ,建议做好用 maven-3.3.0 及以上版本,低版本有较多问题,下载地址(https://download.csdn.net/download/ocean111best/11257015)
3、hive 的下载和配置
本文使用的版本是 hive-1.1.0-cdh5.7.0 ,建议安装 cdh 版本的 hive。下载地址为(https://download.csdn.net/download/ocean111best/11257018)
(这个安装配置前需要安装 mysql 数据库)
配置步骤如下:
在 hive-1.1.0-cdh5.7.0/conf 目录下进行如下配置:
//hive-site.xml中配置如下信息:
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/sparksql?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
注意:上面第一个配置中会在 mysql 生成一个数据库 sparksql。
4)拷贝mysql驱动到$HIVE_HOME/lib/
5)启动Hive:在$HIVE_HOME/bin目录下执行./hive
4、hadoop 下载
本文使用的版本是 hadoop-2.6.0-cdh5.7.0,建议安装 cdh 版本的 hadoop。这个无法上传资源,CSDN只能上传小于 240M 的资源(卒)
(1)配置 hdfs:
hadoop配置文件的修改(hadoop-2.6.0-cdh5.7.0/etc/hadoop)
//修改hadoop-env.sh
export JAVA_HOME= /home/ocean/Downloads/jdk1.7.0_79
//修改core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/Downloads/tmp</value>
</property>
//修改hdfs-site.xml:配置副本个数
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
修改slaves(默认为localhost,所以可以不修改)
(2)启动 hdfs
格式化文件系统(仅第一次执行即可,不可重复执行)bin目录下:./hdfs(hadoop) namenode -format
启动hdfs:切换到 /hadoop-2.6.0-cdh5.7.0/sbin 下,执行 ./start-dfs.sh
验证是否启动成功:
jps(查看是否有下面三个进程):
DataNode
SecondaryNameNode
NameNode
浏览器访问方式:http://hadoop:50070或者http://192.168.0.0:50070
(3)配置 YARN
在 /hadoop-2.6.0-cdh5.7.0/etc/hadoop/ 里面修改成如下配置
//mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
//yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
(3)启动 YARN 相关的进程
在 hadoop-2.6.0-cdh5.7.0/sbin 里面执行 ./start-yarn.sh
验证是否启动成功:jps 查看进程中是否有 ResourceManager和NodeManager进程,或者浏览器中查看 http://localhost:8088
5、scala 下载
本文使用的版本是 scala-2.11.8 ,建议安装的版本一致。下载地址为()
6、Spark 下载
本文配置好的 spark 版本是 spark-2.1.0-bin-2.6.0-cdh5.7.0,(注意跟后面的 pyspark 版本不一致),下载地址为(https://download.csdn.net/download/ocean111best/11084912)
二、环境配置
1、将上述安装包下载下来后,直接解压即可(用 tar -zxvf spark-2.3.0-bin-2.6.0-cdh5.7.0.tar.gz);
2、配置环境变量
a.首先需要配置机器参数,查看机器参数:hostname
修改机器名:vi /etc/sysconfig/network
改为:NETWORKING=yes
hostname=hadoop
b.设置 ip 和 hostname 的映射关系:/etc/hosts
192.168.230.134 hadoop
127.0.0.1 localhost
c.ssh 免密登陆,直接输入下面两行命令即可:
ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
3、修改 .bash_profile
直接 vi ~/.bash_profile,直接配置如下,然后 source ~/.bash_profile