Hadoop伪分布式集群搭建

这里写图片描述
在以上的概念之中实际上只有以下几个名词:
· HDFS:分布式文件系统,是负责信息保存的操作;
· 有一个最为重要的概念就是所有的数据(默认)会保存有三份。
· 低廉硬件:512M内存可以跑,在整个的大数据的集群设计里面,可以不去使用小型机来进行配置,也可以使用一些便宜的电脑。


在Linux操作系统下:
为了保证整个的Hadoop可以正常执行,需要考虑以下几个问题:
· 你的主机名称是什么,如果需要修改主机名称,则执行:vim /etc/hostname,本次设置的主机名称为:“hadoop-alone”,如果修改完成主机名称之后请使用“reboot”重新启动,否则无效;
· 在Hadoop操作的过程之中必须有一个前提:你的IP地址不允许发生变更,一旦有变更,配置失效;
1、 配置hosts文件,设置ip地址与主机名称的映射,输入:vim /etc/hosts

当前ip hadoop-alone

2、配置SSH连接(免登陆密码)

rm -r ~/.ssh
ssh-keygen -t rsa

3、将生成ssh的公钥信息保存在授权文件之中:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4、安装Hadoop

对于Hadoop而言,其安装的过程实际上是比较简单,
①使用wget取得:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
②如果无法通过wget取得相应开发包则可以通过ftp上传取得,将上传后的hadoop开发包文件解压缩。
本次测试安装的路径为:/usr/local/hadoop
5、修改环境属性将hadoop主目录以及相关的可执行目录配置到系统之中;

vim /etc/profile;

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:bin:$HADOOP_HOME/bin: $HADOOP_HOME/sbin:

修改保存后退出,并让配置立即生效
6、编辑Hadoop配置文件hadoop-env.sh;

export JAVA_HOME=/usr/local/jdk

这里写图片描述
7、修改“core-site.xml”文件,该文件作为整个的Hadoop的核心配置文件:
· 建立Hadoop临时的保存路径:mkdir -p /usr/data/hadoop/tmp;

<configuration> 
    <property> 
        <name>hadoop.tmp.dir</name> 
        <value>/usr/data/hadoop/tmp</value> 
        <description>Abase for other temporary directories.</description> 
    </property> 
    <property> 
        <name>fs.defaultFS</name> 
        <value>hdfs://hadoop-alone:9000</value> 
    </property> 
</configuration>

本配置文件的主要目的是设置hadoop的临时保存目录,但是这个目录绝对不允许使用“/tmp”目录,因为这个目录会被自动清空,一旦清空了你的配置就完了;
“fs.defaultFS”描述的是默认的文件系统的操作路径:
修改“hdfs-site.xml”文件,进行存储的配置;

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///usr/data/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///usr/data/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop-alone:50070</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop-alone:50090</value>
    </property>
    <property> 
        <name>dfs.permissions</name>
        <value>false</value>
     </property>
</configuration>

在此配置文件之中有如下几个重要的项:
· “dfs.replication”:文件保存的副本数量,副本保存在DataNode之中,现在只有一个主机,所以只存1份;
· “dfs.namenode.name.dir”:保存namenode节点信息的相关操作;
· “dfs.datanode.data.dir”:保存真实数据;
· “dfs.namenode.http-address”:Hadoop启动之后会自动启动有一个HTTP服务,通过浏览器可以访问;
· “dfs.namenode.secondary.http-address”:SecondaryNameNode节点的HTTP访问;
· “dfs.permissions”:表示的是hdfs操作权限,设置为false表示不验证。
修改“yarn-site.xml”文件;

<configuration>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>hadoop-alone:8033</value>
        </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
      </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>hadoop-alone:8025</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>hadoop-alone:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>hadoop-alone:8050</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>hadoop-alone:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>hadoop-alone:8088</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.https.address</name>
        <value>hadoop-alone:8090</value>
    </property>
</configuration>

修改slaves配置信息
hadoop/etc/hadoop/slaves

hadoop-alone

8、此时相关的配置环境配置完成,随后需要对namenode节点进行格式化处理;

hdfs namenode -format

提示 Exiting with status 0 则表示配置成功
如果现在服务已经启动,则可以在外部通过浏览器的模式来观察,连接地址:http:// 服务器IP :50070

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值