近期小编疲于学习,几天没有更新文章实在汗颜。最近又拿起书本打开电脑,敲起键盘,向知识发起冲击。希望能持续学习,做自己的主人,少受外界环境影响。下面开始进入正题。
Hadoop学习总结
小编根据自己的回忆先总结一些学习了哪些内容,叙述不够详尽的话,评论区解决。
作为一个初学者,对于Hadoop的学习一直很懵逼,只知道对前人做的工作进行模仿,其中的原理理解还是比较浅。应了前人那句话,只是简单的敲代码、模仿命令是不行的。(小编屁话真多)
Hadoop单机模式和伪分布式配置和应用
先说一下个人的对这两个概念的理解,单机模式即在本机上运用MapReduce等工具对文件进行处理,文件格式也是本机的文件格式。伪分布式其实也是在本机上,不过伪分布式要在HDFS进行文件处理,当然文件格式也要与hdfs相同。可以将处理结果再复制到本机上。小编个人认为伪分布式可以更好的体验数据的处理,这样对以后管理多台机器的集群很有帮助。
下面简单叙述个人的配置过程及理解。
(小编的用的环境Ubuntu14.x + Hadoop2.x)
如果你刚刚安装好Ubuntu的环境而且是个重度初学者,那么下面的东西就比较有用了。
在Ubuntu上登陆界面并不能直接选择root用户(小编也不知道为啥),但是centos和Debian上却可以。
在Ubuntu上添加Hadoop用户要获取管理员权限,这就会用到sudo命令。
- 添加Hadoop用户
sudo useradd -m hadoop -s /bin/bash
设置密码
sudo passwd hadoop
为hadoop用户增加管理员权限
sudo adduser hadoop sudo
- apt的使用
apt是安装软件用的工具,需要更新,命令
sudo apt-get update
- 安装Java环境
用apt工具安装,可能会比较慢。
sudo apt-get install openjdk-7-jre openjdk-7-jdk
跟Windows系统一样安装完需要配置环境变量。这个过程比较繁琐,小编不再赘述,大家实在找不到评论区联系我。
- 安装hadoop
大家可以在官网下载,链接如下http://mirrors.cnnic.cn/apache/hadoop/common/。
下面是安装过程
**sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local # 解压到/usr/local中**
**cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop # 修改文件权限**
如果安装完成可以进入目录查看一下hadoop的版本信息。
cd /usr/local/hadoop
./bin/hadoop version
- hadoop单机模式
Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。 - hadoop伪分布式配置
Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。
这个配置过程需要修改两个配置文件core-site.xml 和 hdfs-site.xml
通过gedit编辑器gedit ./etc/hadoop/core-site.xm
l
注意:路径千万不要写错。
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
配置 hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
配置完成对NameNode进行格式化
cd /usr/local/hadoop
./bin/hdfs namenode -format
开启 NameNode 和 DataNode 守护进程
cd /usr/local/hadoop
./sbin/start-dfs.sh
完成以上步骤,伪分布式即完成。
总结:配置过程看似简单,其中有很多地方会出现纰漏,路径这一块的问题都能把人搞蒙了。学习宣言:学无止境,温故知新,学会总结。