280亿条大数据处理实战——(二)环境安装

7 篇文章 0 订阅
6 篇文章 0 订阅

使用 spark 之前需要安装如下环境:

一、安装包下载

1、jdk 下载

本文使用的是 jdk1.8.0_91 ,直接官网下载的,或者直接在这里下载(https://download.csdn.net/download/ocean111best/11257045),建议使用 jdk1.8 以上版本,低版本问题较多。

2、maven 下载

本文使用的是 apache-maven-3.6.0 ,建议做好用 maven-3.3.0 及以上版本,低版本有较多问题,下载地址(https://download.csdn.net/download/ocean111best/11257015

3、hive 的下载和配置

本文使用的版本是 hive-1.1.0-cdh5.7.0 ,建议安装 cdh 版本的 hive。下载地址为(https://download.csdn.net/download/ocean111best/11257018

(这个安装配置前需要安装 mysql 数据库)

配置步骤如下:

在 hive-1.1.0-cdh5.7.0/conf 目录下进行如下配置:

//hive-site.xml中配置如下信息:
<configuration>
<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:mysql://localhost:3306/sparksql?createDatabaseIfNotExist=true</value>
</property>

<property>
   <name>javax.jdo.option.ConnectionDriverName</name>
   <value>com.mysql.jdbc.Driver</value>
</property>

<property>
   <name>javax.jdo.option.ConnectionUserName</name>
   <value>root</value>
</property>

<property>
   <name>javax.jdo.option.ConnectionPassword</name>
   <value>root</value>
</property>

注意:上面第一个配置中会在 mysql 生成一个数据库 sparksql。

4)拷贝mysql驱动到$HIVE_HOME/lib/

5)启动Hive:在$HIVE_HOME/bin目录下执行./hive

4、hadoop 下载

本文使用的版本是 hadoop-2.6.0-cdh5.7.0,建议安装 cdh 版本的 hadoop。这个无法上传资源,CSDN只能上传小于 240M 的资源(卒)

(1)配置 hdfs:

hadoop配置文件的修改(hadoop-2.6.0-cdh5.7.0/etc/hadoop)

//修改hadoop-env.sh
export  JAVA_HOME= /home/ocean/Downloads/jdk1.7.0_79

//修改core-site.xml
   <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:8020</value>
</property>

<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/Downloads/tmp</value>
</property>

//修改hdfs-site.xml:配置副本个数
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

修改slaves(默认为localhost,所以可以不修改)

(2)启动 hdfs

格式化文件系统(仅第一次执行即可,不可重复执行)bin目录下./hdfs(hadoop)  namenode  -format

启动hdfs:切换到 /hadoop-2.6.0-cdh5.7.0/sbin 下,执行 ./start-dfs.sh

验证是否启动成功:

      jps(查看是否有下面三个进程):

         DataNode

         SecondaryNameNode

         NameNode

    浏览器访问方式:http://hadoop:50070或者http://192.168.0.0:50070

(3)配置 YARN

在 /hadoop-2.6.0-cdh5.7.0/etc/hadoop/ 里面修改成如下配置

//mapred-site.xml
<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>

//yarn-site.xml
<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

(3)启动 YARN 相关的进程

在 hadoop-2.6.0-cdh5.7.0/sbin 里面执行 ./start-yarn.sh

验证是否启动成功:jps 查看进程中是否有 ResourceManager和NodeManager进程,或者浏览器中查看 http://localhost:8088

 

5、scala 下载

本文使用的版本是 scala-2.11.8 ,建议安装的版本一致。下载地址为()

6、Spark 下载

本文配置好的 spark 版本是 spark-2.1.0-bin-2.6.0-cdh5.7.0,(注意跟后面的 pyspark 版本不一致),下载地址为(https://download.csdn.net/download/ocean111best/11084912

 

二、环境配置

1、将上述安装包下载下来后,直接解压即可(用 tar  -zxvf  spark-2.3.0-bin-2.6.0-cdh5.7.0.tar.gz);

2、配置环境变量

a.首先需要配置机器参数,查看机器参数:hostname

修改机器名:vi /etc/sysconfig/network

改为:NETWORKING=yes

           hostname=hadoop

b.设置 ip 和 hostname 的映射关系:/etc/hosts

           192.168.230.134  hadoop

            127.0.0.1  localhost

c.ssh 免密登陆,直接输入下面两行命令即可:

         ssh-keygen -t rsa

         cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

3、修改 .bash_profile

直接 vi ~/.bash_profile,直接配置如下,然后 source ~/.bash_profile

 

 

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值