参考文档来自官网:http://hadoop.apache.org/
一、安装与配置
我的版本2.7.1 官网下载解压即可
安装必要软件
$ sudo apt-get install ssh $ sudo apt-get install rsync
1、在etc/hadoop/hadoop-env.sh中配置java环境变量,注意只能是绝对地址,相对地址和环境变量都无效
2、输入以下命令将出现帮助文档
bin/hadoop 由于只有一台机器,选择单节点启动, 有三种模式可供选择:我选择了第二个伪分布模式 3、修改core-site.xml配置:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
修改hdfs-site.xml配置:
4、检查ssh到本地是否有密码解析<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
$ ssh localhost如果需要密码而无法解析,则输入以下命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys
二、运行hdfs
1、首先格式化
$ bin/hdfs namenode -format注意启动前一定保证logs文件清空,不然无法启动namenode
启动namenode和datanode守护进程
$ sbin/start-dfs.sh此时访问http://0.0.0.0:50070可以查看namenode
2、接下来跑一个mapre实例
新建一个工作档案
$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>
将输入文件复制到分布式文件系统
$ bin/hdfs dfs -put etc/hadoop inputetc/hadoop对应本机,input对应分布式文件系统,-get操作正好相反
运行一个实例:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'
直接查看输出:
$ bin/hdfs dfs -cat output/*或者拷贝到本地再查看输出:
$ bin/hdfs dfs -get output output $ cat output/*3、关闭进程:
$ sbin/stop-dfs.sh jps可查看进程
三、运行yarn
1、配置etc/hadoop/mapred-site.xml.template(2.7.2是etc/hadoop/mapred-site.xml)
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 2、配置etc/hadoop/yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
3、启动yarn守护进程
$ sbin/start-yarn.sh
4、访问http://localhost:8088/查看
5、跑一个mapre实例查看
6、关闭进程
$ sbin/stop-yarn.sh