Linux Ubuntu系统环境下hadoop的安装以及伪分布式集群安装与配置

1. 环境安装条件

1.1 版本兼容问题

本人在安装过程中遇到的很多问题是由版本不兼容导致的,安装完成后的版本:
Ubuntu 18.04.6
VMware Workstation16
VMtools-Tools-10.3.21
hadoop-3.1.2
jdk 1.8.0_362
windows11系统下安装vm15会出现蓝屏警告,安装vm17会出现vmware tools 下载完成后还是不能拖动共享文件的问题,可能是vmtools的版本与ubuntun不兼容的问题。当然如果您是能解决版本兼容问题的大佬就当我没说。

1.2 关于VMware-tools的作用

安装完成重启主机后大家都能发现桌面上多了个光驱,鼠标可以在windows系统和linux系统随意滑动,windows的文件也可以直接拖动到linux系统。可能大家没发现的:同步了虚拟机和主机的时间,提供了高显示分辨率,更新虚拟机中的显卡驱动,使虚拟机中的XWindows可以运行在SVGA模式下。
本人在安装完vmtools后有时能够拖动文件,又是拖不进去。就很神奇,当然也就是文件共享没有实现,有另一种方法:在虚拟机设置界面选中“选项”标签中的“共享文件夹”并进行设置,之后可以在ubuntu系统中,点开文件夹,中找到master>mnt>hgfs查看共享的文件。
请添加图片描述
请添加图片描述

2. Hadoop 伪分布式集群安装与配置

2.2.1 创建用户hadoop

(1)查看hadoop用户是否存在。
$ cat /etc/passwd |grep hadoop
(2)如果用户hadoop不存在,则创建用户haop,继续执行步骤(3).如果用户hadoop存在,则执行步骤(4)。
(3)创建用户hadoop,并设置密码为hadoop.
$ sudo useradd -m hadoop -s/bin/bash
设置用户hadoop的密码为hadoop (注意:密码不回显);
$ sudo passwd hadoop
(4)将用户hadoop添加到sudo组中,为用户授权。
$ sudo adduser hadoop sudo

2.2.2修改 主机名与域名映射

(1)修改虚拟机主机名称为master.
编辑/etc/hostname文件,写入虚拟机主机名称“master":
$ sudo gedit /etc/hostname
(2)将虚拟机的IP地址与主机名称写入/etc/hosts中,完成域名映射的添加。
$ sudo gedit /etc/hosts
在文件末尾添加一行下列信息:
192.168.189.128 master
其中,192.168.247.0 为虚拟机IP地址,master 为主机名称。修改完后,保存文件。虚拟机ip地址在哪看?
在编辑>虚拟网络编辑器 可查看。
请添加图片描述
(3)重新启动虚拟机,以用户hadoop登录系统。
$ sudo reboot

2.3 SSH免密登录设置

为了实现Hadoop集群节点之间的SsH免密码登录,需要进行SSH免密码登录设(1)在虚拟机上安装SSH。

执行下列命令安装SSH:

$ sudo ap-get update
$ sudo apt-get install openssh-server

(2)在虚拟机上生成公钥和私钥。
$ ssh-keygen -t rsa

执行过程一路回车就行了。

执行完成后,在~/目录下(/home/hadoop) 自动创建目录.ssh,内部包含id_rsa(私钥)id_ rsa.pub (公钥)两个文件。

(3)将虚拟机的公钥发送到要登录节点的.ssh/authorized keys文件中。
$ cd ~/.ssh
$ ssh-copy-id -i id_rsa.pub hadoop@master
请添加图片描述
查看 ~./.ssh/authorized_keys 文件:
请添加图片描述
(4)测试SSH免密登录:请添加图片描述

2.4 安装JAVA环境

(1)创建jvm目录,并改名。
$ sudo mkdir /usr/lib/jvm/
$ sudo chown-R hadoop /usr/lib/jvm

(2)书上给的是解压安装的步骤,但是为什么不能直接在虚拟机里直接下载JDK8安装呢?
虚拟机中打开终端
$ sudo apt-get install openjdk-8-jre openjdk-8-jdk
(3)配置环境变量,并生效。
$ gedit ~./bashrc
(4)配置bashrc文件,注意,在后面伪分布式集群配置的时候还要编辑该文件

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HONE/bin:$HADOOP_HOME/sbin:$PATH
export HBASE_HOME=/usr/local/hbase
export PATH=$PATH:$HBASE_HOME/bin
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin

(5)使环境生效:
$ source ~/.bashrc
(6)验证是否成功:
注意要两种方法去验证
$ java -version
$ javac请添加图片描述

请添加图片描述

2.5伪分布式集群安装与配置

(1)使用tar命令解压安装hadoo-3.1.2.tar.gz文件到目录/usr/local中,并将文件夹重命名F hadoop.

$ cd ~/下载 #进入源文件hadoop-3.1.2.tar.gz所在目录

 sudo tar -zxvfhadoo 3.1.2.tar.gz-C /usr/local    ##j解压文件

$ cd /usr/local

$ sudo mv hadoop-3.1.2 hadoop #为简化操作, 将文件夹重命名为hadoop

(2)将目录/usr/local/hadoop的所有者修改为用户hadoop。

$ sudo chown -R hadoop /usr/local/hadoop

(3)配置环境变量,并使其生效。

①使用gedit命令打开用户的配置文件.bashrc。如果前面你copy我的,就不用打开了

$ gedit ~/.bashrc

②在文件中加入下列内容:

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HONE/bin:$HADOOP_HOME/sbin:$PATH

❸使环境变量生效。

$ source ~/.bashrc

(4)配置Hadoop文件。

①配置hadoop-env.sh 文件。

用gedit 命令打开hadop-env.sh文件:


$ gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh

将第37行代码“# JAVA HME” (那一行)修改为. export JAVA_HOME=/usr/lib/jvm/最后一个是我图中选中的这个

请添加图片描述

②配置core-site.xml文件。

用gedit命令打开core-site.xml文件:
在< configuration>和</ configuration>标记之间写入下列内容:

<configuration>
	<property>
		<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/tmp</value>
		<description>Abase for other
temporary directories.</description>
	</property>
	<property>
		<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>
	</property>
</configuration>

配置hdfs-site.xml文件
$ gedit /usr/local/hadoop/etc/hadoop/core-site.xml

在 < configuration>和</ configuration> 标记之间写入下列内容:

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
	<property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/name</value>
	</property>
	<property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/data</value>
	</property>
</configuration>

(5)格式化。
$ hdfs namenode -format
(6)重新格式化

$ stop-all.sh
$ cd /usr/local/hadoop
$ rm -r dfs/  logs/ tmp/
$ hdfs namenode -format
$ start-all.sh

(6)检查:
1.$ jps
请添加图片描述

2.浏览器打开8088端口
请添加图片描述

3.浏览器打开9870端口

请添加图片描述

3. 总结

各位可以CV,我不介意。
风景照片是一位姓马的高中筒靴(如玉一样的女孩)给的。

3.1 家乡的风景:请添加图片描述

3.2 一群牛

请添加图片描述

3.3 白沙湾

请添加图片描述

3.4 学习?

学个P!
请添加图片描述

  • 11
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论
### 回答1: 如果要在本地配置 Hadoop 的开发环境,你需要安装 Hadoop 并创建一个分布式集群安装 Hadoop 的方法取决于你使用的操作系统。你可以通过以下两种方式之一来安装 Hadoop: 1. 使用软件包管理器(例如 apt-get 或 yum): - 在 Ubuntu 中,使用以下命令安装 Hadoop: ``` sudo apt-get install hadoop ``` - 在 CentOS 中,使用以下命令安装 Hadoop: ``` sudo yum install hadoop ``` 2. 从源代码安装 Hadoop: - 下载 Hadoop 源代码: ``` wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz ``` - 解压缩 Hadoop 源代码: ``` tar -xzvf hadoop-3.3.0.tar.gz ``` 接下来,你需要创建一个分布式集群,这意味着你在单个机器上运行 Hadoop,但是其表现得像一个分布式集群。 首先,你需要配置 Hadoop配置文件(例如 hadoop-env.sh),然后启动 Hadoop。 在完成这些步骤后,你就可以使用 Hadoop 了! ### 回答2: Hadoop是大数据处理的常用工具之一,其分布式存储和处理数据的特点,使其越来越受到关注。而为了使用Hadoop,我们需要先配置好开发环境,包括Hadoop安装分布式集群搭建。 Hadoop安装Hadoop是基于Java开发的,所以首先需要安装Java。建议安装Java8或以上版本,并确保JAVA_HOME环境变量已经配置好。 接下来,需要下载Hadoop安装包并解压缩。建议使用Apache官方的二进制发行版本,也可以选择Cloudera或Hortonworks等第三方发行版本。解压后,在Hadoop的根目录下,需要进行一些配置分布式集群搭建: 分布式集群是在单台机器上搭建的模拟集群,可以方便地进行Hadoop的学习和开发。要搭建分布式集群,需要进行如下配置: 1. 配置Hadoop配置文件:修改Hadoop配置文件hadoop-env.sh,并将HADOOP_CONF_DIR、HADOOP_MAPRED_HOME、HADOOP_COMMON_HOME、HADOOP_HDFS_HOME环境变量设置为Hadoop安装目录。 2. 配置HDFS文件系统:在Hadoop的conf目录下,创建一个新的文件夹hadoop_data,并在该目录下创建三个子目录:namenode、datanode和tmp。其中,namenode和datanode分别是HDFS的主节点和从节点,而tmp目录是用来存放临时文件的。 3. 启动Hadoop:通过执行start-all.sh脚本,可以启动所有的Hadoop进程。如果一切正常,就可以通过http://localhost:50070访问HDFS的文件浏览器,和http://localhost:8088访问资源管理器,查看Hadoop的运行状态。 这样,分布式Hadoop集群就搭建完成了。通过这个集群,可以进行各种Hadoop的开发操作,比如MapReduce程序的编写和执行等。当然,在实际应用中,还需要对Hadoop进行更加严格和复杂的配置和管理。 ### 回答3: Hadoop是一个开源的分布式计算框架,它能够对大规模的数据进行存储和处理,也因此得到了广泛的应用。如今Hadoop已成为大数据生态系统中的一个重要组成部分。为了能够使用Hadoop,我们需要先配置好开发环境。下面就让我们了解一下第二关:配置开发环境 - Hadoop安装分布式集群搭建。 首先,我们需要先下载Hadoop,并安装Java环境Hadoop支持多个版本,可以根据自己的需要进行选择。安装Java环境的方法也很简单,只需要到官网上下载对应的JDK,然后按照提示进行安装即可。 接下来,我们需要配置Hadoop环境变量。在Linux系统下,直接在.bashrc文件中添加以下代码即可: export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin 其中,/path/to/hadoop改为实际的Hadoop安装路径。 当环境变量配置好后,我们就可以开始配置Hadoop分布式集群。 首先,我们需要编辑hadoop-env.sh文件,将JAVA_HOME设置为我们刚刚安装的JDK路径。 然后,我们需要配置core-site.xml文件。在该文件中,我们需要指定Hadoop所使用的文件系统类型,这里我们使用HDFS。同时,我们还需要指定Hadoop的namenode,即Hadoop的主节点。将以下代码添加到core-site.xml文件中: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> 其中,localhost改为实际的主机名。 接下来,我们需要配置hdfs-site.xml文件。该文件用于配置Hadoop分布式文件系统(HDFS)。将以下代码添加到hdfs-site.xml文件中: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/path/to/hadoop/data/nameNode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/path/to/hadoop/data/dataNode</value> </property> </configuration> 其中,/path/to/hadoop/data/nameNode和/path/to/hadoop/data/dataNode改为实际的数据存储路径。 最后,我们需要配置mapred-site.xml文件。该文件用于配置MapReduce计算框架。将以下代码添加到mapred-site.xml文件中: <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 以上就是配置Hadoop分布式集群的所有步骤。我们可以通过启动命令,启动Hadoop集群。运行$HADOOP_HOME/sbin/start-all.sh即可启动Hadoop分布式集群。最后,我们可以通过JPS命令查看Hadoop的各个组件是否启动成功。 总之,配置Hadoop的开发环境后,我们才能更好地使用Hadoop进行数据处理。通过以上步骤,我们可以轻松搭建Hadoop分布式集群,并开始进行数据处理工作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

尚.西西弗斯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值