hadoop入门笔记

1.  伪分布安装步骤


关闭防火墙


修改ip


修改hostname


设置ssh自动登录


安装jdk


安装hadoop


注:此部分涉及到的Linux操作部分可以再下面的链接中找到,Linux初级操作


2.  安装jdk


用xftp把jdk安装包放到/root/Downloads


tar xzvfjdk-7u67-linux-i586.tar.gz  解压缩


vi/etc/profile 设置环境变量,添加如下3行内容


exportJAVA_HOME=/usr/local/jdk1.7


exportCLASSPATH=/usr/local/jdk1.7/lib


exportPATH=.:$JAVA_HOME/bin:$PATH


source /etc/profile  配置文件立即生效


Java –version 验证是否设置成功


3.  安装hadoop


用xftp把hadoop安装包放到/root/Downloads


tar xzvf hadoop-2.5.2.tar.gz  解压缩


vi /etc/profile 设置环境变量,添加并修改如下内容


export JAVA_HOME=/usr/local/jdk1.7


export HADOOP_HOME=/usr/local/hadoop2.5


export CLASSPATH=/usr/local/jdk1.7/lib


export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH


source /etc/profile  配置文件立即生效


hadoop version 验证hadoop是否配置成功


4.  设置hadoop伪分布模式


上面步骤安装成功后,hadoop处于独立模式即本机模式,本机模式用于开发阶段测试调试MapReduce程序。伪分布模式用于在本机上模拟一个小规模的集群。


修改$HADOOP_HOME/etc/hadoop下的5个配置文件。


(1) 修改core-site.xml,设置namenode主机,hadoop文件系统
<configuration>
    <property>
       <name>fs.default.name</name>
       <value>hdfs://hadoop:9000</value>
    </property>


<property>


   <name>hadoop.tmp.dir</name>


<value>/usr/local/hadoop2.5/tmp</value>


</property>


</configuration>
(2) 修改hdfs-site.xml,设置数据块副本数目
<configuration>


<property>


<name>dfs.name.dir</name>


<value>/usr/local/hadoop2.5/hdfs/name</value>


</property>


<property>


<name>dfs.data.dir</name>


      <value>/usr/local/hadoop2.5/hdfs/data</value>


</property>


<property>


 <name>dfs.replication</name>


 <value>1</value>


</property>


<property>


<name>dfs.permissions</name>


<value>false</value>


</property>
</configuration>
(3) 修改mapred-site.xml


[cp mapred-site.xml.template mapred-site.xml]
<configuration>
        <property>


  <name>mapreduce.framework.name</name>


    <value>yarn</value>


</property>
</configuration>
(4)修改hadoop-env.sh,设置JAVA_HOME
     在hadoop-env.sh中添加,本机中jdk路径
     export JAVA_HOME=/usr/local/jdk1.7


(5)修改yarn-site.xml,包含MapReduce启动的配置信息。<configuration>


<property>


<name>yarn.nodemanager.aux-services</name>


 <value>mapreduce_shuffle</value>


</property>


</configuration>


5.  启动hadoop


hdfs namenode –format 格式化HDFS文件系统


注:第一,格式化之后jdk的路径会变成相对路径,需要到hadoop-env.sh中再改成绝对路径;


第二,一定在hadoop安装目录的sbin目录下执行格式化命令!


cd /usr/local/hadoop2.5/sbin  进入sbin目录


start-dfs.sh,start-yarn.sh   启动hadoop


jps 查看Java进程


共涉及5个Java进程,如下图所示:NodeManager、SecondaryNameNode、NameNode、DataNode、 ResourceManager;


6.  浏览器验证


在windows系统中绑定Linux主机名和ip


修改C:\Windows\System32\drivers\etc下的host文件


访问hadoop:50070和hadoop:8088端口


7.  执行测试程序


使用新建的伪分布式平台运行wordcount程序:


echo"Hello World.Hello hadoop." > hello.txt


hadoopfs -mkdir -p input  在hdfs系统上创建文件夹input


hadoopfs –ls 查看文件夹是否创建成功


hadoopfs -put ../hello.txt input 将本地文件上传到hdfs


hadoopfs -ls input   查看文件是否上传成功


hadoopjar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar wordcountinput output  运行wordcount


hadoopfs -ls output 查看运行之后产生的文件


hadoopfs -cat output/part-r-00000 查看运行结果






8.错误记录


1.  Q:Java HotSpot(TM) ClientVM warning: You have loaded library/usr/local/hadoop2.5/lib/native/libhadoop.so.1.0.0which might have disabled stack guard. The VM will try to fix the stack guardnow.


A:这个问题的错误原因会发生在64位的操作系统上,原因是从官方下载的hadoop使用的本地库文件都是基于32位编译的,运行在64位系统上就会出现上述错误。


方案一:在64位系统上重新编译hadoop;


方案二:在hadoop-env.sh,yarn-env.sh中添加下两行: 


 


Export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native


export  HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31453498/viewspace-2137905/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31453498/viewspace-2137905/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值