hadoop 安装+本地运行wordCount

最新推荐文章于 2022-09-03 10:16:59 发布

怪怪517

最新推荐文章于 2022-09-03 10:16:59 发布

阅读量768

点赞数

分类专栏： hadoop 文章标签： hadoop win7 eclipse

本文链接：https://blog.csdn.net/huanxue517/article/details/56013031

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一直以来，对大数据都有无限的向往之情，但又因身边无尽琐事，一直搁浅了一窥其真面目的计划

幸而，在公司面临危险之境，竟有了时间来把它玩上一玩，中间踩了很多坑，现将其一一记下，以便日后使用，也希望可以帮助想玩玩hadoop的你。

本机系统：win7（64位）+虚拟机（vmare）+linux(ubuntu)

1.在hadoop官网下载 hadoop-2.6.4.tar.gz 的安装包

将其上传至 linux环境 hadoop文件夹内解压

tar -zxvf hadoop-2.6.4.tar.gz

如图：

进入 hadoop-2.6.4,可以看到以下内容

2.修改hadoop的配置

配置环境变量

vi /etc/environment
将你所安装的hadoop的路径添加入PATH:(注意用:分隔)

/home/software/hadoop/bin:/home/software/hadoop/sbin

  执行如下命令，使之生效： 

  source /etc/environment

cd etc/hadoop

(1) 在hadoop的文件夹里创建一个hadoop_tmp文件夹，作为hadoop的临时文件

修改core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://172.19.12.172:9000</value>
    <final>true</final>
  </property>

  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/software/hadoop/hadoop_tmp</value>
  </property>
</configuration>

（2）修改hdfs-site.xml

<configuration>
   <property>
      <name>dfs.namenode.name.dir</name>
      <value>/home/software/hadoop/hadoop-2.6.4/dfs/namenode</value>
      <final>true</final>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>
       <value>/home/software/hadoop/hadoop-2.6.4/dfs/datanode</value>
      <final>true</final>
    </property>
    <property>
      <name>dfs.http.address</name>
      <value>172.19.12.172:50070</value>
       <description> 
         The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
      </description>
    </property>
    <property>
      <name>dfs.replication</name>
      <value>1</value>
    </property>
    <property>
      <name>dfs.permissions</name> 
      <value>false</value>
    </property>
</configuration>

(3)修改mapred-site.xml.template（有些人的文件名可能为mapred-site.xml）

<configuration>
     <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
    </property>
    <property>
      <name>mapred.job.tracker</name>
      <value>hdfs://172.19.12.172:9001</value>
    </property>
        <property>
          <name>mapred.system.dir</name>
          <value>file:/home/software/hadoop/hadoop-2.6.4/mapred/system</value>
          <final>true</final>
        </property>
        
        <property>  
          <name>mapred.local.dir</name>  
          <value>file:/home/software/hadoop/hadoop-2.6.4/mapred/local</value>
          <final>true</final>   
        </property> 
</configuration>

（4）修改yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>shuffle service that needs to be set for Map Reduce to run</description>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>172.19.12.172</value>
    <description>hostname of Resource Manager</description>
  </property>
  <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>172.19.12.172:8088</value>
  </property>
</configuration>

以上四个配置文件非常重要，我配置里面配置的当前虚拟机里ubuntu的ip，这是为了在我的win7 下面可以直接访问虚拟机里面的hadoop服务

3.启动hadoop

  第一次启动都要格式化下数据文件，命令： 

  ./bin/hdfs namenode -format 

  启动hadoop,命令： 

  ./sbin/start-all.sh 

  停止命令： 

  ./sbin/stop-all.sh 
 
   查看，命令： 
 
   jps 
 
 至此hadoop linux 的安装 就结束了 
 
 http://Ip地址：50070 
 
 http://Ip地址：8088 
 
 可以访问到hadoop的管理界面 
 
 以上安装过程 转载 参考 http://www.cnblogs.com/yanglf/p/4020555.html 
 
 执行wordcount 
 
 (1)将hadoop 启动 
 
hadoop fs -mkdir /input
在HDFS系统中创建input文件目录
 (2)创建输入文件，并放入hdfs系统中 
 
 sudo sh -c 'echo "hello hadoop" >count.txt' 
 
 hadoop fs -put count.txt  /input 
 
 (3) 
 hadoop fs -ls /input
查看文件是否正确传入到/input目录下
hadoop fs -cat /input/count.txt查看文件内容
 (4)执行：hadoop安装目录下自带有例子 
 
 hadoop jar 
 share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /input /output 
 
 标红的地方为相对路径 
 
 看到这个就成功了 
 
hadoop fs -ls /output
查看输出结果的目录
hadoop fs -cat /output/part-r-00000
查看输出结果
结果就是对count.txt文件中单词进行计数统计了，到这就运行完成了。
 
 此步骤可参考：http://jingyan.baidu.com/article/ce09321b7a2e052bff858fd9.html 
 
 eclipse 安装hadoop可参考 https://my.oschina.net/muou/blog/408543#OSC_h2_8 
 
 注意：