Hadoop在linux下安装和配置

1、安装JDK
  (1)下载安装JDK:确保计算机联网之后命令行输入下面命令安装JDK
       sudo apt-get install sun-java6-jdk

      http://blog.csdn.net/lifuxin1125/article/details/7738161
  (2)配置计算机Java环境:打开/etc/profile,在文件最后输入下面内容
       export JAVA_HOME = (Java安装目录)
       export CLASSPATH = ".:$JAVA_HOME/lib:$CLASSPATH" 
       export PATH = "$JAVA_HOME/:PATH"
  (3)验证Java是否安装成功
  输入 java -version ,输出Java版本信息即为安装成功。

2、安装配置SSH

  (1)下载安装SSH:同样在命令行输入下面命令安装SSH
      sudo apt-get install ssh
  (2)配置无密码登录本机:在命令行输入下面两条命令
     $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
         直接回车,完成后会在~/.ssh/生成两个文件:id_rsa和id_rsa.pub;这两个成对出现,类似钥匙和锁。
         
         再把id_rsa.pub追加到授权key里面(当前并没有authorized_keys文件)
         $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    附:如果出现了问题,可以查看http://hi.baidu.com/sinbad/item/ef5bd0f9cd5acf6c3d14856bhttp://jimingsong.iteye.com/blog/1181165

  (3)验证SSH是否安装成功
       输入 ssh localhost 。如果显示本机登录成功就表明安装成功。

3、关闭防火墙
   $sudo ufw disable
   注意:这步非常重要,如果不关闭,会出现找不到datanode的问题
   
4、安装运行Hadoop(以0.20.2版本为例)

  (1)下载Hadoop:在http://www.apache.org/dyn/closer.cgi/hadoop/core/页面上下载Hadoop。
  (2)安装配置Hadoop

   单节点配置:
   安装单节点的Hadoop无需配置,在这种方式下,Hadoop被认作为一个单独的Java进程。

   伪分布配置:
   伪分布的Hadoop是只有一个节点的集群。在这个集群中,计算机既是master也是slave,
     即使 namenode也是datanode,既是jobtracker也是tasktracker。

  配置的过程如下:

  a、进入conf文件夹修改下面的文件。
  Hadoop-env.sh中加入下面内容:
  export JAVA_HOME = (JAVA安装目录)

  core-site.xml文件内容修改为下面内容:
  <configuration>

     <!-- global properties -->
     <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/zhongping/tmp</value>
   </property>

    <!-- file system properties -->
   <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
   </property>
  </configuration>

  hdfs-site.xml文件内容修改为下面内容:(replication默认为3,如果不修改,datanode少于三台就会报错)
  <configuration>
   <property>
    <name>fs.replication</name>
    <value>1</value>
   </property>
  </configuration>

  mapred-site.xml文件内容修改为下面内容:
  <configuration>
   <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
   </property>
  </configuration>

  b、格式化Hadoop文件系统,在命令行输入命令:
  bin/hadoop namenode -format

  c、启动Hadoop,在命令行输入命令:
  bin/start-all.sh

  d、验证Hadoop是否安装成功,在浏览器中输入下面网址,如果正常打开说明安装成功。
  http://localhost:50030 (mapreduce的web页面)
  http://localhost:50070 (hdfs的web页面)

5、运行实例
   (1)先在本地磁盘建立两个输入文件 file01和file02
   $echo "Hello World Bye World" > file01
   $echo "Hello Hadoop Goodbye Hadoop" > file02
   
   (2)在hdfs中建立一个input目录:$hadoop fs -mkdir inputy
   (3)将file01和file02拷贝到hdfs中:
      $hadoop fs -copyFromLocal /home/zhongping/file0* input
   (4)执行wordcount:
      $hadoop jar hadoop-0.20.2-examples.jar wordcount input output
   (5)完成之后,查看结果
      $hadoop fs -cat output/part-r-00000




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是在Linux安装Hadoop的步骤: 1. 安装JavaHadoop是基于Java编写的,因此在安装Hadoop之前,需要安装Java。你可以通过以下命令检查系统是否已安装Java: ``` java -version ``` 如果Java安装,则可以通过以下命令在Ubuntu上安装: ``` sudo apt-get update sudo apt-get install default-jdk ``` 2. 下载Hadoop:可以从Hadoop官方网站下载最新版本的Hadoop。 3. 解压缩Hadoop:将下载的Hadoop文件解压缩到你想要安装Hadoop的目录中。你可以使用以下命令将Hadoop解压缩到“/usr/local/”目录: ``` sudo tar -xzf hadoop-x.x.x.tar.gz -C /usr/local/ ``` 4. 设置环境变量:需要将Hadoop添加到PATH环境变量中。可以通过编辑“~/.bashrc”文件来设置环境变量: ``` export HADOOP_HOME=/usr/local/hadoop-x.x.x export PATH=$PATH:$HADOOP_HOME/bin ``` 然后使用以下命令使更改生效: ``` source ~/.bashrc ``` 5. 配置Hadoop:需要对Hadoop进行一些配置,以便它能够在你的系统上正常运行。主要需要配置“core-site.xml”、“hdfs-site.xml”和“mapred-site.xml”三个文件。 1. core-site.xml:添加以下内容到core-site.xml文件中: ``` <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` 2. hdfs-site.xml:添加以下内容到hdfs-site.xml文件中: ``` <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop-3.3.1/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop-3.3.1/data/datanode</value> </property> </configuration> ``` 3. mapred-site.xml:复制模板文件“mapred-site.xml.template”并重命名为“mapred-site.xml”。然后添加以下内容到mapred-site.xml文件中: ``` <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 6. 启动Hadoop:使用以下命令启动Hadoop: ``` start-all.sh ``` 然后可以通过以下命令检查Hadoop是否已成功启动: ``` jps ``` 如果成功启动,将会看到类似以下输出: ``` 1762 NameNode 2050 DataNode 您好!以下是在Linux安装Hadoop的步骤: 1. 首先,您需要确保您的系统中已经安装Java。您可以在终端中输入以下命令来检查是否已安装Java: ``` java -version ``` 如果您已经安装Java,您应该能够看到Java的版本信息。如果您没有安装Java,您需要先安装Java。 2. 您可以从Hadoop的官方网站(https://hadoop.apache.org/)上下载最新版本的Hadoop。选择下载一个.tar.gz文件。 3. 在Linux终端中,切换到您想要安装Hadoop的目录。然后,使用以下命令将Hadoop压缩文件解压缩: ``` tar -xzvf hadoop-<version>.tar.gz ``` 其中,<version>应替换为您下载的Hadoop版本号。 4. 解压缩完成后,进入Hadoop目录。找到conf文件夹并进入该文件夹。 5. 在conf文件夹中,将以下文件的模板文件复制一份: ``` cp mapred-site.xml.template mapred-site.xml cp core-site.xml.template core-site.xml cp hdfs-site.xml.template hdfs-site.xml ``` 6. 打开core-site.xml文件并添加以下内容: ``` <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` 这将指定Hadoop使用的文件系统以及其默认的名称节点。在这种情况下,我们使用HDFS并将其设置为本地主机上的端口9000。 7. 打开hdfs-site.xml文件并添加以下内容: ``` <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` 这将指定HDFS的数据副本数为1。您可以根据需要更改此值。 8. 打开mapred-site.xml文件并添加以下内容: ``` <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 这将指定Hadoop使用YARN作为其资源管理器。 9. 现在,打开终端并进入Hadoop目录。运行以下命令: ``` bin/hdfs namenode -format ``` 这将初始化HDFS名称节点。 10. 最后,运行以下命令以启动Hadoop集群: ``` sbin/start-all.sh ``` 这将启动Hadoop集群中的所有服务。现在,您已经成功地安装并启动了Hadoop集群。 希望这能帮助您安装Hadoop

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值