2020.3.7Hadoop学习及总结

近期小编疲于学习,几天没有更新文章实在汗颜。最近又拿起书本打开电脑,敲起键盘,向知识发起冲击。希望能持续学习,做自己的主人,少受外界环境影响。下面开始进入正题。

Hadoop学习总结

小编根据自己的回忆先总结一些学习了哪些内容,叙述不够详尽的话,评论区解决。
作为一个初学者,对于Hadoop的学习一直很懵逼,只知道对前人做的工作进行模仿,其中的原理理解还是比较浅。应了前人那句话,只是简单的敲代码、模仿命令是不行的。(小编屁话真多)

Hadoop单机模式和伪分布式配置和应用

先说一下个人的对这两个概念的理解,单机模式即在本机上运用MapReduce等工具对文件进行处理,文件格式也是本机的文件格式。伪分布式其实也是在本机上,不过伪分布式要在HDFS进行文件处理,当然文件格式也要与hdfs相同。可以将处理结果再复制到本机上。小编个人认为伪分布式可以更好的体验数据的处理,这样对以后管理多台机器的集群很有帮助。
下面简单叙述个人的配置过程及理解。
(小编的用的环境Ubuntu14.x + Hadoop2.x)
如果你刚刚安装好Ubuntu的环境而且是个重度初学者,那么下面的东西就比较有用了。
在Ubuntu上登陆界面并不能直接选择root用户(小编也不知道为啥),但是centos和Debian上却可以。
在Ubuntu上添加Hadoop用户要获取管理员权限,这就会用到sudo命令。

- 添加Hadoop用户
 sudo useradd -m hadoop -s /bin/bash  
 设置密码
 sudo passwd hadoop
 为hadoop用户增加管理员权限
 sudo adduser hadoop sudo
 - apt的使用
apt是安装软件用的工具,需要更新,命令 
sudo apt-get update
  • 安装Java环境
    用apt工具安装,可能会比较慢。
 sudo apt-get install openjdk-7-jre openjdk-7-jdk

跟Windows系统一样安装完需要配置环境变量。这个过程比较繁琐,小编不再赘述,大家实在找不到评论区联系我。

  • 安装hadoop
    大家可以在官网下载,链接如下http://mirrors.cnnic.cn/apache/hadoop/common/。
    下面是安装过程
**sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中**
**cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限**

如果安装完成可以进入目录查看一下hadoop的版本信息。

cd /usr/local/hadoop
./bin/hadoop version
  • hadoop单机模式
    Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。
  • hadoop伪分布式配置
    Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。
    这个配置过程需要修改两个配置文件core-site.xml 和 hdfs-site.xml
    通过gedit编辑器gedit ./etc/hadoop/core-site.xml
    注意:路径千万不要写错。
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

配置 hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

配置完成对NameNode进行格式化

cd /usr/local/hadoop
./bin/hdfs namenode -format

开启 NameNode 和 DataNode 守护进程
cd /usr/local/hadoop
./sbin/start-dfs.sh

完成以上步骤,伪分布式即完成。

总结:配置过程看似简单,其中有很多地方会出现纰漏,路径这一块的问题都能把人搞蒙了。学习宣言:学无止境,温故知新,学会总结。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值