280亿条大数据处理实战——(二)环境安装

最新推荐文章于 2024-07-19 16:04:56 发布

爱睡懒觉的老舅

最新推荐文章于 2024-07-19 16:04:56 发布

阅读量251

点赞数 2

分类专栏： hadoop hive spark 文章标签： hadoop spark java hive

本文链接：https://blog.csdn.net/Ocean111best/article/details/93542091

版权

hadoop 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

spark

7 篇文章 0 订阅

订阅专栏

hive

6 篇文章 0 订阅

订阅专栏

使用 spark 之前需要安装如下环境：

一、安装包下载

1、jdk 下载

本文使用的是 jdk1.8.0_91 ，直接官网下载的，或者直接在这里下载(https://download.csdn.net/download/ocean111best/11257045)，建议使用 jdk1.8 以上版本，低版本问题较多。

2、maven 下载

本文使用的是 apache-maven-3.6.0 ，建议做好用 maven-3.３.0 及以上版本，低版本有较多问题，下载地址（https://download.csdn.net/download/ocean111best/11257015）

3、hive 的下载和配置

本文使用的版本是 hive-1.1.0-cdh5.7.0 ，建议安装 cdh 版本的 hive。下载地址为（https://download.csdn.net/download/ocean111best/11257018）

（这个安装配置前需要安装 mysql 数据库）

配置步骤如下：

在 hive-1.1.0-cdh5.7.0/conf 目录下进行如下配置：

//hive-site.xml中配置如下信息：
<configuration>
<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:mysql://localhost:3306/sparksql?createDatabaseIfNotExist=true</value>
</property>

<property>
   <name>javax.jdo.option.ConnectionDriverName</name>
   <value>com.mysql.jdbc.Driver</value>
</property>

<property>
   <name>javax.jdo.option.ConnectionUserName</name>
   <value>root</value>
</property>

<property>
   <name>javax.jdo.option.ConnectionPassword</name>
   <value>root</value>
</property>

注意：上面第一个配置中会在 mysql 生成一个数据库 sparksql。

4)拷贝mysql驱动到$HIVE_HOME/lib/

5)启动Hive：在$HIVE_HOME/bin目录下执行./hive

4、hadoop 下载

本文使用的版本是 hadoop-2.6.0-cdh5.7.0，建议安装 cdh 版本的 hadoop。这个无法上传资源，CSDN只能上传小于 240M 的资源(卒)

（1）配置 hdfs：

hadoop配置文件的修改(hadoop-2.6.0-cdh5.7.0/etc/hadoop)

//修改hadoop-env.sh
export  JAVA_HOME= /home/ocean/Downloads/jdk1.7.0_79

//修改core-site.xml
   <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:8020</value>
</property>

<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/Downloads/tmp</value>
</property>

//修改hdfs-site.xml:配置副本个数
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

修改slaves(默认为localhost，所以可以不修改)

（2）启动 hdfs

格式化文件系统(仅第一次执行即可，不可重复执行)bin目录下：./hdfs(hadoop) namenode -format

启动hdfs:切换到 /hadoop-2.6.0-cdh5.7.0/sbin 下，执行 ./start-dfs.sh

验证是否启动成功：

jps（查看是否有下面三个进程）：

DataNode

SecondaryNameNode

NameNode

浏览器访问方式：http://hadoop:50070或者http://192.168.0.0:50070

（3）配置 YARN

在 /hadoop-2.6.0-cdh5.7.0/etc/hadoop/ 里面修改成如下配置

//mapred-site.xml
<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>

//yarn-site.xml
<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

（3）启动 YARN 相关的进程

在 hadoop-2.6.0-cdh5.7.0/sbin 里面执行 ./start-yarn.sh

验证是否启动成功：jps 查看进程中是否有 ResourceManager和NodeManager进程，或者浏览器中查看 http://localhost:8088

5、scala 下载

本文使用的版本是 scala-2.11.8 ，建议安装的版本一致。下载地址为（）

6、Spark 下载

本文配置好的 spark 版本是 spark-2.1.0-bin-2.6.0-cdh5.7.0，（注意跟后面的 pyspark 版本不一致），下载地址为（https://download.csdn.net/download/ocean111best/11084912）

二、环境配置

1、将上述安装包下载下来后，直接解压即可（用 tar -zxvf spark-2.3.0-bin-2.6.0-cdh5.7.0.tar.gz）；

2、配置环境变量

a.首先需要配置机器参数，查看机器参数：hostname

修改机器名：vi /etc/sysconfig/network

改为：NETWORKING=yes

hostname=hadoop

b.设置 ip 和 hostname 的映射关系：/etc/hosts

192.168.230.134 hadoop

127.0.0.1 localhost

c.ssh 免密登陆，直接输入下面两行命令即可：

ssh-keygen -t rsa

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

3、修改 .bash_profile

直接 vi ~/.bash_profile，直接配置如下，然后 source ~/.bash_profile

爱睡懒觉的老舅

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
280亿条大数据处理实战——(二)环境安装

使用spark之前需要安装如下环境：一、安装包下载1、jdk 下载本文使用的是jdk1.8.0_91，直接官网下载的，或者直接在这里下载(https://download.csdn.net/download/ocean111best/11257045)，建议使用jdk1.8以上版本，低版本问题较多。2、maven 下载本文使用的是apache-maven-3.6....
复制链接

扫一扫

专栏目录