Hadoop搭建

最新推荐文章于 2024-04-24 20:37:12 发布

qq_38461396

最新推荐文章于 2024-04-24 20:37:12 发布

阅读量297

点赞数

文章标签：分布式大数据 hadoop linux java

原文链接：https://blog.51cto.com/13555423/2508961

版权

简介：
Hadoop是一个由Apache基金会所开发的分布式系统基础架构，利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。
HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算

Hadoop的核心由3个部分组成：
HDFS: Hadoop Distributed File System，分布式文件系统，hdfs还可以再细分为NameNode、SecondaryNameNode、DataNode。
YARN: Yet Another Resource Negotiator，资源管理调度系统
Mapreduce：分布式运算框架

优点：
Hadoop 对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
1.可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
2.扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
3.高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
4.容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

环境准备
192.168.1.131 hadoop-master
192.168.1.132 hadoop-slave1
192.168.1.133 hadoop-slave2

修改hosts
vi /etc/hosts
192.168.1.131 hadoop-master
192.168.1.132 hadoop-slave1
192.168.1.133 hadoop-slave2

安装java

jdk 下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
2696671285@qq.com 
Oracle123


tar -vzxf jdk-8u211-linux-x64.tar.gz  
mkdir /usr/java 
mv /root/jdk1.8.0_211/ /usr/java

vim /etc/profile

JAVA_HOME=/usr/java/jdk1.8.0_211    #修改对应版本
JRE_HOME=$JAVA_HOME/jre
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
export JAVA_HOME JRE_HOME CLASS_PATH PATH

修改之后

source /etc/profile

测试查看是否正常

#java

安装hadoop

下载地址 http://hadoop.apache.org/releases.html
tar -zxvf hadoop-2.7.7.tar.gz 
mv hadoop-2.7.7 /opt/hadoop/
/opt/hadoop/etc/hadoop

修改 /hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_211

设置伪分布模式（Pseudo-Distributed Operation）

修改etc/hadoop/core-site.xml文件，增加配置（fs.defaultFS：默认文件系统名称）：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改etc/hadoop/hdfs-site.xml文件，增加配置（dfs.replication：文件副本数）：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

ssh免密登录

在三台虚拟机上创建 mkdir ~/.ssh
在.ssh下ssh-keygen -t rsa
生成两个文件，一个私钥，一个公钥
cp id_rsa.pub authorized_keys
scp /root/.ssh/authorized_keys hadoop-slave1:/root/.ssh 
scp /root/.ssh/authorized_keys hadoop-slave2:/root/.ssh 
chmod 644 authorized_keys 每台机器都需要更改权限

重启sshd后master就可免密登录hadoop-master hadoop-slave1 hadoop-slave2

格式化文件系统

bin/hdfs namenode -format

如报错如下需要执行以下步骤：

./start-dfs.sh
Starting namenodes on [master]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [slave1]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.

在/hadoop/sbin路径下：,将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

start-yarn.sh，stop-yarn.sh顶部也需添加以下：

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

修改后重新启动 ./start-dfs.sh

./sbin/start-dfs.sh  // 启动NameNode和DataNode进程
./sbin/stop-dfs.sh   // 关闭NameNode和DataNode进程

 ./start-dfs.sh
WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER.
Starting namenodes on [master]
上一次登录：日 6月  3 03:01:37 CST 2018从 slave1pts/2 上
master: Warning: Permanently added 'master,192.168.43.161' (ECDSA) to the list of known hosts.
Starting datanodes
上一次登录：日 6月  3 04:09:05 CST 2018pts/1 上
Starting secondary namenodes [slave1]
上一次登录：日 6月  3 04:09:08 CST 2018pts/1 上

访问查看HDFS：
http://192.168.1.131:9870/
Hadoop搭建

注：3.0 之前版本 NameNode 50070端口
3.0 之后版本 NameNode 9870 端口

启动YARN ./start-dfs.sh

访问查看YARN：
http://192.168.114.135:8088/
Hadoop搭建

./sbin/start-yarn.sh
./sbin/stop-yarn.sh

qq_38461396

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop搭建

简介：Hadoop是一个由Apache基金会所开发的分布式系统基础架构，利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（.
复制链接

扫一扫