hadoop 安装+本地运行wordCount

        一直以来,对大数据都有无限的向往之情,但又因身边无尽琐事,一直搁浅了一窥其真面目的计划

       幸而,在公司面临危险之境,竟有了时间来把它玩上一玩,中间踩了很多坑,现将其一 一记下,以便日后使用,也希望可以帮助想玩玩hadoop的你。

       本机系统:win7(64位)+虚拟机(vmare)+linux(ubuntu)

       1.在hadoop官网下载 hadoop-2.6.4.tar.gz 的安装包

        将其上传至 linux环境 hadoop文件夹内 解压

        tar  -zxvf  hadoop-2.6.4.tar.gz

       如图:

    

   进入 hadoop-2.6.4,可以看到以下内容



2.修改hadoop的配置

配置环境变量

vi /etc/environment
将你所安装的hadoop的路径添加入PATH:(注意用:分隔)

/home/software/hadoop/bin:/home/software/hadoop/sbin

执行如下命令,使之生效:
source /etc/environment

cd etc/hadoop

(1) 在hadoop的文件夹里创建一个hadoop_tmp文件夹,作为hadoop的临时文件

修改core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://172.19.12.172:9000</value>
    <final>true</final>
  </property>

  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/software/hadoop/hadoop_tmp</value>
  </property>
</configuration>

(2)修改hdfs-site.xml

<configuration>
   <property>
      <name>dfs.namenode.name.dir</name>
      <value>/home/software/hadoop/hadoop-2.6.4/dfs/namenode</value>
      <final>true</final>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>
       <value>/home/software/hadoop/hadoop-2.6.4/dfs/datanode</value>
      <final>true</final>
    </property>
    <property>
      <name>dfs.http.address</name>
      <value>172.19.12.172:50070</value>
       <description> 
         The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
      </description>
    </property>
    <property>
      <name>dfs.replication</name>
      <value>1</value>
    </property>
    <property>
      <name>dfs.permissions</name> 
      <value>false</value>
    </property>
</configuration>

(3)修改mapred-site.xml.template(有些人的文件名可能为mapred-site.xml)

<configuration>
     <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
    </property>
    <property>
      <name>mapred.job.tracker</name>
      <value>hdfs://172.19.12.172:9001</value>
    </property>
        <property>
          <name>mapred.system.dir</name>
          <value>file:/home/software/hadoop/hadoop-2.6.4/mapred/system</value>
          <final>true</final>
        </property>
        
        <property>  
          <name>mapred.local.dir</name>  
          <value>file:/home/software/hadoop/hadoop-2.6.4/mapred/local</value>
          <final>true</final>   
        </property> 
</configuration>
                   

(4)修改yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>shuffle service that needs to be set for Map Reduce to run</description>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>172.19.12.172</value>
    <description>hostname of Resource Manager</description>
  </property>
  <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>172.19.12.172:8088</value>
  </property>
</configuration>

以上四个配置文件非常重要,我配置里面配置的当前虚拟机里ubuntu的ip,这是为了在我的win7 下面可以直接访问虚拟机里面的hadoop服务


3.启动hadoop

第一次启动都要格式化下数据文件,命令:
./bin/hdfs namenode -format
启动hadoop,命令:
./sbin/start-all.sh
停止命令:
./sbin/stop-all.sh

查看,命令:
jps

至此hadoop linux 的安装 就结束了
http://Ip地址:50070
http://Ip地址:8088
可以访问到hadoop的管理界面
以上安装过程 转载 参考 http://www.cnblogs.com/yanglf/p/4020555.html

执行wordcount
(1)将hadoop 启动

hadoop fs -mkdir /input

在HDFS系统中创建input文件目录

(2)创建输入文件,并放入hdfs系统中
sudo sh -c 'echo "hello hadoop" >count.txt'
hadoop fs -put count.txt  /input

(3)

hadoop fs -ls /input

查看文件是否正确传入到/input目录下

hadoop fs -cat /input/count.txt查看文件内容

(4)执行:hadoop安装目录下自带有例子
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /input /output
标红的地方为相对路径

看到这个就成功了
Hadoop2.7.1运行wordcount


hadoop fs -ls /output

查看输出结果的目录

hadoop fs -cat /output/part-r-00000

查看输出结果

结果就是对count.txt文件中单词进行计数统计了,到这就运行完成了。

Hadoop2.7.1运行wordcount

此步骤可参考:http://jingyan.baidu.com/article/ce09321b7a2e052bff858fd9.html

eclipse 安装hadoop可参考 https://my.oschina.net/muou/blog/408543#OSC_h2_8
注意:


以上应该可以让一个初学者完成安装,配置及实例运行




   



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值