linux上搭建单机版hadoop和spark

依赖的安装包

首先hadoop和spark肯定是必须的,而hadoop是用java编写的,spark是由Scala编写的,所以还需要安装jdk和scala。

大数据第三方组件我们统统都安装在/opt目录下,首先这个目录当前是空的

1229382-20190804021420366-1121051218.png

我们创建相应的目录,用于存放对应的组件

1229382-20190804021425568-325614321.png

1229382-20190804021431015-1065481717.png

然后将相应的gz包进行上传

1229382-20190804021441058-603783077.png

安装jdk

此刻在/opt目录
tar -zxvf ./jdk-8u221-linux-x64.tar.gz -C ./java

然后添加到环境变量,我一般添加到~/.bashrc里面去
export JAVA_HOME=/opt/java/jdk1.8.0_221
export PATH=$JAVA_HOME/bin:$PATH
source ~/.bashrc

1229382-20190804021450059-1549369516.png

安装hadoop

hadoop的话我这里选择的是cdh版本的,建议大家也这么选择,因为可以避免很多jar包的冲突。
进入到/opt目录
tar -zxvf ./hadoop-2.6.0-cdh5.8.5.tar.gz -C ./hadoop

export HADOOP_HOME=/opt/hadoop/hadoop-2.6.0-cdh5.8.5
export PATH=$HADOOP_HOME/bin:$PATH
source ~/.bashrc

1229382-20190804021458038-94051048.png

除此之外我们还要安装ssh和rsync,这样在启动hdfs就不用输入用户密码了

yum install ssh
yum install rsync

安装完之后,输入ssh-keygen -t rsa一路回车

1229382-20190804021505123-1797605485.png

然后进入~/.ssh目录,执行如下命令, cp ./id_rsa.pub ./authorized_keys,不过我这里没有执行。

修改hadoop的几个配置文件

我们进入到$HADOOP_HOME/etc/hadoop目录下

1.修改hadoop-env.sh

1229382-20190804021513132-920373309.png

2.修改core-site.xml

在configuration中添加如下内容

<property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:8020</value>
</property>

3.修改hdfs-site.xml

在configuration中添加如下内容

<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/tmp</value>
</property>
<property>
        <name>dfs.replication</name>
        <value>1</value>
</property>

修改临时文件的存储路径,不然一重启就没了,这肯定是不行的,这里路径指定为/opt/hadoop/tmp,然后是副本系数,因为我们这里是单机伪分布式的,所以副本系数设为1

4.slaves

这个对于单机来说,是不需要的,但是对于搭建真正的分布式是很有用的,我们搭建分布式,肯定需要多台机器,那么把其他机器的hostname加进去就可以了。

1229382-20190804021522920-333414781.png

这里只有一个localhost,当然我们也可以写主机名

5.修改mapred-site.xml

首先目录里面没有mapred-site.xml,但是给我们提供了一个模板,mapred-site.xml.template,我们直接cp一下即可。
cp mapred-site.xml.template mapred-site.xml

在configuration中添加如下内容
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

6.修改yarn-site.xml

在configuration中添加如下内容

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>

配置完成

下面格式化文件系统:hdfs namenode -format,这个操作只需要执行一次,我们进入~目录操作吧

1229382-20190804021531788-1184891209.png

如果配置正确,那么出现一大堆输出,表示执行成功

启动$HADOOP_HOME/sbin目录下的start-dfs.sh

1229382-20190804021538392-2109975916.png

输入jps,会有如下进程,说明启动成功

1229382-20190804021544362-614476603.png

启动yarn,yarn是一个资源管理器,我们也要将它启动起来,启动$HADOOP_HOME/sbin目录下的start-yarn.sh

1229382-20190804021551183-2012365204.png

此时如果多出这些内容,表示执行成功

我们来操作一波

hdfs dfs -ls /:查看hdfs根目录的内容

1229382-20190804021557968-1027505387.png

hdfs dfs -copyFromLocal 本地文件 hdfs路径:将本地文件拷贝到hdfs上面去

1229382-20190804021604895-1503064804.png

安装scala

进入到/opt目录
tar -zxvf ./scala-2.13.0.tgz -C ./scala

export SCALA_HOME=/opt/scala/scala-2.13.0
export PATH=$SCALA_HOME/bin:$PATH
source ~/.bashrc

1229382-20190804021611229-647229489.png

安装spark

进入到/opt目录
tar -zxvf ./spark-2.4.3-bin-hadoop2.7.tgz -C ./spark

export SPARK_HOME=/opt/spark/spark-2.4.3-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
source ~/.bashrc

输入pyspark,出现如下内容,说明配置成功

1229382-20190804021617890-1316960203.png

转载于:https://www.cnblogs.com/traditional/p/11297049.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值