[学习笔记]Hadoop安装_配置

  1. 需要一个Linux系统,可以采用虚拟机,也可以租用云主机
  2. 安装JDK环境
    在命令行输入javac,看是否已经有JAVA环境,没有则继续按照提示安装JDK环境,安装完JDK之后,在命令行输入 vim /etc/profile ,进行设置环境变量。
    javac验证时候有JAVA环境:
    javac验证时候有JAVA环境
    配置环境变量:配置的变量包含JAVA_HOME、CLASSPATH、PATH,按照自己的安装目录进行配置
    这里写图片描述
    配置完成后输入以下命令让其生效
    这里写图片描述

如何配置Hadoop?

  1. 首先安装hadoop
    下载hadoop ,命令如下:
    wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
    这里写图片描述

    这里写图片描述

    这里写图片描述
    这里写图片描述

这里写图片描述
conf里面需要配置的文件有(下图中红色框起来的):
这里写图片描述
第一个修改hadoop-env.sh中的配置
vim hadoop-env.sh 进入文件配置JAVA_HOME 变量 和之前配置JAVA环境的JAVA_HOME路径是一样的,如果不知道JAVA_HOME的路径,可以通过echo $JAVA_HOME来查看路径
这里写图片描述
接下来配置其他是三个XML文件,第一个看core-site.xml,打开之后它是一个空的配置文件,如下图:
这里写图片描述
配置后的(注意:下图中的localhost为自己本机的名字比如我的就是:Cherise):
这里写图片描述

<name>hadoop.tmp.dir</name>
<value>/hadoop</value> //配置Hadoop的临时工作目录
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value> //dfs.name.dir的目录在/hadoop/name下
</property>
<property>
<name>fs.default.name</name>//文件系统的DataNode该如何访问
<value>hdfs://localhost:9000</value>//用这个方式访问(本机)
</property>

再来看vim hdfs-site.xml 配置文件,配置前的(它也是一个空的配置文件,同样也需要一些属行需要配置):
这里写图片描述
配置后的:
这里写图片描述

<property>
<name>dfs.data.dir</name>//文件系统的数据
<value>/hadoop/data</value>//放在这个目录下
</property>

最后看第三个配置文件: mapred-site.xml ,用命令vim mapred-site.xml 进入文件,配置前的:
这里写图片描述
配置后的(注意:下图中的localhost为自己本机的名字比如我的就是:Cherise):
这里写图片描述

<property>
<name>mapred.job.tracker</name>//任务调度器该如何访问
<value>localhost:9001</value>//这样访问本机:端口号
</property>

到此,配置文件已经配置完毕!
然后我们还要告诉系统Hadoop安装到哪了
命令 vim /etc/profile
在配置环境变量的地方加上 HADOOP_HOME的路径配置,以及在PATH中加上$HADOOP_HOME/bin: 如下图所示:
这里写图片描述
温馨提示:保存之后记得生效,命令为:source /etc/profile
然后用hadoop命令看是否能找到Hadoop这个执行程序,也就是说看配置好着没有:
这里写图片描述
其实这个Hadoop的可执行程序在哪呢?如下图:
这里写图片描述
我们在执行之前需要对namenode先进行格式化操作,命令:hadoop namenode -format
这里写图片描述
然后在任何地方都可以启动 start-all.sh 然后用jps 来查看Hadoop运行是否正常 ,如下图(如果有以下进程(红色框中的那6个进程)在运行则运行Hadoop运行正常):
这里写图片描述
这里写图片描述
看看Hadoop下面有什么文件系统
这里写图片描述
安装到此结束!
华丽分割线


安装小结

  1. 在linux下安装JDK,并设置环境变量 ,安装命令:apt-get install openjdk-7-jdk
  2. 在 /etc/profile中设置环境变量
  3. 下载Hadoop,并设置Hadoop的环境变量
  4. 修改4个配置文件。
    a):修改hadoop-env.sh ,设置JAVA_HOME;
    b):3个xml文件(都在hadoop-1.2.1目录下的conf目录下):
    第一个:core-site.xml(设置属性 hadoop.tmp.dir、dfs.name.dir、fs.default.name)
    第二个:hdfs-site.xml(设置属性 dfs.data.dir)
    第三个:mapred-site.xml(设置属性 mapred.job.tracker)

  5. 格式化 hadoop namenode -format

  6. 启动start-all.sh
  7. 用jps命令查看 hadoop是否安装成功
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个开源的分布式计算框架,可用于大数据的存储和处理。它采用了分布式文件系统(HDFS)和分布式计算框架(MapReduce),能够将大数据分割成小的数据块,并在集群中的多台计算机上并行处理这些数据块。 HDFS是Hadoop的分布式文件系统,它将大文件切分为多个数据块,并将这些数据块存储在集群中的多个计算机上。HDFS使用主从架构,其中NameNode负责管理文件系统的元数据,而多个DataNode负责实际存储数据。HDFS具有高容错性,能够自动复制数据块以保证数据的可靠性。 MapReduce是Hadoop的分布式计算框架,它通过将计算任务划分为多个Map和Reduce阶段来进行并行计算。Map阶段将输入数据切分为多个独立的小任务,并在集群中的多个计算机上并行执行。Reduce阶段将Map阶段的输出合并并进行聚合计算。MapReduce具有自动并行化、容错性和可扩展性等优点,能够高效地处理大规模数据集。 在学习Hadoop时,首先要了解Hadoop的核心组件,包括HDFS和MapReduce。然后,需要学习Hadoop的架构和工作原理,理解Hadoop如何实现分布式存储和计算。接下来,需要学习Hadoop安装配置,包括在单机和集群环境下的安装配置过程。此外,还需要学习Hadoop的命令行工具和管理工具,以及Hadoop的API和编程模型。 在实际使用Hadoop时,需要掌握Hadoop的常用操作和管理技巧,如如何上传和下载文件、如何执行MapReduce作业、如何监控和管理Hadoop集群等。同时,需要学习Hadoop的优化技术和调优方法,以提高Hadoop集群的性能和效率。 总之,对于Hadoop学习,除了理解其基础知识和工作原理外,还需要熟悉其常用操作和管理技巧,以及灵活运用Hadoop来解决实际的大数据问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值