2020.3.7Hadoop学习及总结

最新推荐文章于 2023-06-26 16:31:27 发布

996秃头小哥哥

最新推荐文章于 2023-06-26 16:31:27 发布

阅读量332

点赞数

分类专栏：笔记文章标签：大数据

本文链接：https://blog.csdn.net/i_java_/article/details/104815039

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

近期小编疲于学习，几天没有更新文章实在汗颜。最近又拿起书本打开电脑，敲起键盘，向知识发起冲击。希望能持续学习，做自己的主人，少受外界环境影响。下面开始进入正题。

Hadoop学习总结

小编根据自己的回忆先总结一些学习了哪些内容，叙述不够详尽的话，评论区解决。
作为一个初学者，对于Hadoop的学习一直很懵逼，只知道对前人做的工作进行模仿，其中的原理理解还是比较浅。应了前人那句话，只是简单的敲代码、模仿命令是不行的。（小编屁话真多）

Hadoop单机模式和伪分布式配置和应用

先说一下个人的对这两个概念的理解，单机模式即在本机上运用MapReduce等工具对文件进行处理，文件格式也是本机的文件格式。伪分布式其实也是在本机上，不过伪分布式要在HDFS进行文件处理，当然文件格式也要与hdfs相同。可以将处理结果再复制到本机上。小编个人认为伪分布式可以更好的体验数据的处理，这样对以后管理多台机器的集群很有帮助。
下面简单叙述个人的配置过程及理解。
（小编的用的环境Ubuntu14.x + Hadoop2.x）
如果你刚刚安装好Ubuntu的环境而且是个重度初学者，那么下面的东西就比较有用了。
在Ubuntu上登陆界面并不能直接选择root用户（小编也不知道为啥），但是centos和Debian上却可以。
在Ubuntu上添加Hadoop用户要获取管理员权限，这就会用到sudo命令。

- 添加Hadoop用户
 sudo useradd -m hadoop -s /bin/bash  
 设置密码
 sudo passwd hadoop
 为hadoop用户增加管理员权限
 sudo adduser hadoop sudo
 - apt的使用
apt是安装软件用的工具，需要更新，命令 
sudo apt-get update

安装Java环境
用apt工具安装，可能会比较慢。

 sudo apt-get install openjdk-7-jre openjdk-7-jdk

跟Windows系统一样安装完需要配置环境变量。这个过程比较繁琐，小编不再赘述，大家实在找不到评论区联系我。

安装hadoop
大家可以在官网下载，链接如下http://mirrors.cnnic.cn/apache/hadoop/common/。
下面是安装过程

**sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中**
**cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限**

如果安装完成可以进入目录查看一下hadoop的版本信息。

cd /usr/local/hadoop
./bin/hadoop version

hadoop单机模式
Hadoop 默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单 Java 进程，方便进行调试。
hadoop伪分布式配置
Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。
这个配置过程需要修改两个配置文件core-site.xml 和 hdfs-site.xml
通过gedit编辑器gedit ./etc/hadoop/core-site.xml
注意:路径千万不要写错。

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

配置 hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

配置完成对NameNode进行格式化

cd /usr/local/hadoop
./bin/hdfs namenode -format

开启 NameNode 和 DataNode 守护进程
cd /usr/local/hadoop
./sbin/start-dfs.sh

完成以上步骤，伪分布式即完成。

总结:配置过程看似简单，其中有很多地方会出现纰漏，路径这一块的问题都能把人搞蒙了。学习宣言：学无止境，温故知新，学会总结。

996秃头小哥哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020.3.7Hadoop学习及总结

近期小编疲于学习，几天没有更新文章实在汗颜。最近又拿起书本打开电脑，敲起键盘，向知识发起冲击。希望能持续学习，做自己的主人，少受外界环境影响。下面开始进入正题。Hadoop学习总结小编根据自己的回忆先总结一些学习了哪些内容，叙述不够详尽的话，评论区解决。作为一个初学者，对于Hadoop的学习一直很懵逼，只知道对前人做的工作进行模仿，其中的原理理解还是比较浅。应了前人那句话，只是简单的敲代码、...
复制链接

扫一扫