hadoop 自学指南一之安装hadoop

最新推荐文章于 2024-05-15 23:55:47 发布

holo_hai

最新推荐文章于 2024-05-15 23:55:47 发布

阅读量485

点赞数

分类专栏： hadoop 自学指南文章标签： hadoop

本文链接：https://blog.csdn.net/ice_grey/article/details/48227491

版权

hadoop 自学指南专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一、前言

a) 本人是菜鸟，不生产代码，大自然的搬运工。

b）基础知识（hadoop 1.x，2.x有点区别）

NameNode
    HDFS 的守护程序
    记录文件分割
    内存I/O进行集中管理
Secondary NameNode 辅助名称节点
    HDFS辅助后台
    NameNode 的备用
DataNode 数据节点
    具体的HDFS数据块
JobTracker  作业跟踪器
    处理用户提交的作业
    分割task 并分配节点
    监控task
    只有一个JobTracker 位于Master 节点

Master: NodeNode SecondaryNameNode JobTracker
slave: DataNode TaskTracker
TaskTracker
    与DataNode 一起
    管理task
    与jobtracker交互
    并行执行MapReduce

二、环境准备

a) Linux版本：Ubuntu14.04

b) Vmware

c) secureCRT

d) 有志于大数据程序员（important)

三、源码准备

下载http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/

Bin和源码包都下载下来

我比较注重第一手的资料，第一手的资料在那里，打开下载的hadoop 1.2.1

file:///H:/hadoop-1.2.1/docs/single_node_setup.html

四、相关的linux 配置与准备

a) 掌握必要的vim命令（很重要，不然你会有砸电脑的冲动，vim学习与指南）

b) 准备两台虚拟机，安装配置jdk（最好是1.6版的）

小法的两台机器分别为hai,hai01（一般改为hadoop，名字修改在/etc/hostname)，ip为192.168.100.150，192.168.100.151

i. 将jdk解压到/usr/目录下

tar -xzvf jdk-xxx /usr

ii. 配置jdk (新手用vi,可以有点困难，先看看vim学习与指南)

http://download.csdn.net/detail/ice_grey/9080357

sudo vi /etc/profile (技巧：先打：sh 回到shell cd 到java安装目录

例如：/usr/jdk1.7.xx 打pwd，这时候会显示java的目录，右键复制，按ctrl+d

回到vi界面，右键粘贴，这样避免了记忆出错）

c) 配置ssh 与rsa

原理不多说（非对称加密，公钥与私钥是一对，公钥给别人，别人用公钥加密后，自己用私钥可以解开）

生成密钥对
ssh -keygen -t rsa
ls -al  : authorized_keys  id_rsa  id_rsa.pub known_hosts
把公钥给别人改名为authorized_keys
scp ./id_rsa.pub hai@192.168.1.100:/home/hai/.ssh/authorized_keys

scp -r ./hadoop-1.1.2 hai@192.168.1.100:/home/hai/

最终的效果是：

在.ssh 目录下，authorized_keys

有别人的公钥 -》到别人免密码

有自己的公钥 -》到本地localhost免密码

最终的效果

五、配置hadoop

打开自带的doc,打开index点到Configuration ，里面分别介绍配置的几个文件

conf/hadoop-env.sh

配置java_home和hadoop_classpath

根据自己的情况修改，myclass 文件夹没有

conf/core-site.xml

理伦上，上面那个配置就够了

conf/hdfs-site.xml

conf/mapred-site.xml

conf/master

指定master节点所在，根据自己的情况修改

执行格式化

bin/hadoop namenode -format

启动hadoop 集群

bin/start-all.sh

执行测试

jps

bin/hadoop jar hadoop-examples-1.2.1.jar pi 10 100

运行情况界面

http://192.168.100.150:50070/
http://192.168.100.150:50030/jobtracker.jsp     jobtracker

代码：

hadoop-env.sh      建立java 环境，主要修改java home  export JAVA_HOME=/usr/jdk1.7.0_60
core-site.xml      配置主机名和临时目录
    <configuration>
       <property>
               <name>fs.default.name</name>
               <value>hdfs://hai:9000</value>
       </property>

       <property>
               <name>hadoop.tmp.dir</name>
               <value>/home/hai/hadoop-1.2.1/tmp</value>
       </property>

    </configuration>
hdfs-site.xml       配置hdsf的复制因子，有多少个节点就指定几个

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>

</configuration>
mapred-site.xml     配置jobtrackr 监听地址和端口
<configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>hai:9001</value>
        </property>

</configuration>

master     配置那个节点充当master
    hai
slaves     配置那个节点充当slaves
    hai01
/etc/hosts  修改host文件：
192.168.100.150 hai
192.168.100.151 hai01

4、初始化
bin/hadoop namenode -format   格式化namenode
bin/start-all.sh      启动

/usr/jdk1.7.0_60/bin/jps   检查jps 进程

参巧：

hadoop 实战第2版

hadoop 权威指南第二版

附：别人总结的安装指南

http://download.csdn.net/detail/ice_grey/9080497

holo_hai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop 自学指南一之安装hadoop

一、前言a) 本人是菜鸟，不生产代码，大自然的搬运工。二、环境准备a) Linux版本：Ubuntu14.04b) Vmwarec) secureCRTd) 有志于大数据程序员（important)三、源码准备下载http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/Bin和源码包都下载下来
复制链接

扫一扫

专栏目录