Hadoop_1

最新推荐文章于 2022-06-02 13:49:45 发布

chenyanlong_v

最新推荐文章于 2022-06-02 13:49:45 发布

阅读量210

点赞数

如有不足，欢迎纠正

本文链接：https://blog.csdn.net/longyanchen/article/details/108794190

版权

Hadoop1

hadoop是什么
- 狭义上
  - 特指Apache 的一款软件 java语言开发开源软件大数据问题解决处理平台
```
Hadoop HDFS:分布式文件系统  解决了海量数据存储问题
Hadoop MapReduce:分布式计算框架 解决了海量数据的计算问题
Hadoop YARN:资源管理任务调度系统
```
- 广义上
  - 特指hadoop 生态圈包括了大数据解决的各个不同步骤的软件
  - 甚至一些非apache 的项目也会处于生态圈中
hadoop的优点和应用
- 优点：扩容能力强使用分布式的思想解决了海量数据的处理问题
  
  使用方便简单相比较于传统的处理方式犹如一缕清风
- 应用：hadoop精准了区分 what to do(做什么业务)| how to do（怎么做技术）
  
  hadoop提供了大数据存储能力计算能力跟具体的行业不会挂钩通用的大数据解决方案。

hadoop集群搭建

hadoop发行版本
- 社区版：官方版本 apache社区维护
  - 优点：功能最新的免费
  - 缺点：稳定性兼容性不好
```
https://archive.apache.org/dist/hadoop/common/

hadoop-2.6.0-src.tar.gz  官方提供的源码包
hadoop-2.6.0.tar.gz    官方预编译安装包
```
- 商业版：商业公司在社区版本至少进行商业化开发架构 api 配置不会发生改变主要改变bug和兼容性
  - 优点：稳的一批兼容性极好
  - 缺点：花钱某些软件可能版本不高不能使用最新的功能
```
http://archive.cloudera.com/cdh5/cdh/5/

hadoop-2.6.0-cdh5.14.0-src.tar.gz  cdh版本源码包
hadoop-2.6.0-cdh5.14.0.tar.gz   cdh版本预编译安装包
```
    只要保证cdh版本号是一致的该版本号中所有的生态圈软件之间都是兼容的
- 在博客中我们使用cdh最稳定的一个版本 cdh5.14.0–hadoop 2.6.0
hadoop自身版本发展
- 历经了1.X 2.X 3.X
- 当下企业中使用最多的是2系列高阶版本 2.5~2.8 稳定兼容性最好
hadoop集群介绍
- hadoop分为两个集群 hdfs集群 yarn集群
- hdfs集群分布式文件存储
  - 主角色：namenode(nn)
  - 从角色：datanode(dn)
  - 主角色辅助角色（秘书角色）：secondarynamenode(snn)
- yarn集群集群资源管理任务调度
  - 主角色：resourcemanager(rm)
  - 从角色：nodemanager(nm)
hadoop部署模型
- 单机模式所有的进程在一个机器上运行过家家
- 伪分布模式每个进程独立在一台机器上模拟分布式执行环境
- 分布式集群模式：多个进程多台机器生成环境中的模式
- HA高可用集群：主要解决了单点故障保证集群稳定可靠
hadoop安装环境检测
- jdk是否正常安装环境变量
- 时间是否同步
- 防火墙是否关闭
  
  iptables selinux
- 主机名 ip映射
- 免密登录 ssh
hadoop源码编译
- 为什么某些软件需要编译源码
```
软件的运行依赖于操作系统平台 操作系统之间存在着差异性  下载源码结合具体平台进行编译
修改源码中某些组件的逻辑
```
- 什么叫做编译
  
  以java语言来说把.java 编译成.class —>jar 便于程序运行
- 如何编译源码
  
  在每个版本的hadoop 源码包中 building.txt 里面描述了该版本的编译需要配置的依赖软件
  
  最终只需要执行mvn -pachage 进行编译
  
  保证编译过程中网络的顺畅 jar可以下载推荐使用博客中提供cdh编译需要的jar仓库
集群规划(站在架构的角度规划服务器集群分配)
- 根据软件自己软件之间的工作特性结合服务器的硬件特性合理安排软件运行在不同的机器上
- 原则：
  - 优先满足软件需要的硬件资源
  - 尽量避免有冲突的软件不在一起
  - 有工作上依赖的软件尽量部署在一起
  NodeManager和Datanode通常部署在一台机器上。
```
node-1: NameNode   DataNode                   | ResourceManager NodeManager
node-2:            DataNode  SecondaryNameNode|                 NodeManager
node-3:            DataNode                   |                 NodeManager
```
  如何扩展hadoop集群
```
node-4   DataNode  NodeManager
node-5   DataNode  NodeManager
node-6   DataNode  NodeManager
.......
```

hadoop 安装目录结构

 bin        hadoop集群管理的基本脚本  
 etc        配置文件路径
 include
 lib
 libexec
 sbin       hadoop集群启动关闭的脚本（单节点逐个  一键启动）
 share      hadoop 编译之后的jar  官方自带示例

hadoop配置修改

第一类 shell脚本 hadoop-env.sh

导入java_home 保证hadoop运行的时候一定可以正确的加载jdk环境变量
```
vim etc/hadoop/hadoop-env.sh
export JAVA_HOME=/export/servers/jdk1.8.0_65
```

第二类配置文件 4个 xml文件（分别配置了 hdfs mapreduce yarn common）

core-site.xml common模块

<!-- 指定HADOOP所使用的文件系统schema（URI），HDFS的老大（NameNode）的地址 -->
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://node-1:8020</value>
</property>

<!-- 指定hadoop运行时产生文件的存储目录,默认/tmp/hadoop-${user.name} -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/export/data/hadoopdata</value>
</property>

hdfs-site.xml hdfs模块

<property>
        <name>dfs.replication</name>
        <value>2</value>
</property>
   <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node-2:50090</value>
</property>

mapred-site.xml mr模块

<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

yarn-site.xml

<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node-1</value>
</property>
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>

第三类配置文件 slaves
- 配合一键启动脚本到slaves指定的机器上启动hdfs和yarn集群的从角色
- 通过 dfs.hosts 指定的slaves文件中的机器才可以加入hadoop集群白名单
- 一个写一个ip或者主机名
```
node-1
node-2
node-3
```

把主节点上配置好的安装包scp给其他节点上

cd /export/servers/
scp -r hadoop-2.6.0-cdh5.14.0/ node-2:$PWD
scp -r hadoop-2.6.0-cdh5.14.0/ node-3:$PWD

添加hadoop的环境变量

export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

hadoop初体验

namnode format操作
- 首次启动集群需要针对hdfs 操作
- 操作只需要进行一次 通常在namenode所在节点进行
- format中主要创建了hadoop运行时依赖的一些文件夹和文件
```
Storage directory /export/data/hadoopdata/dfs/name has been successfully formatted.
```
```
-rw-r--r--. 1 root root 321 Jul 18 14:53 fsimage_0000000000000000000
-rw-r--r--. 1 root root  62 Jul 18 14:53 fsimage_0000000000000000000.md5
-rw-r--r--. 1 root root   2 Jul 18 14:53 seen_txid
-rw-r--r--. 1 root root 208 Jul 18 14:53 VERSION
```
- Q:如果不小心format多从会如何？怎么解决？
  - 后果：集群中主从角色互相不识别貌合神离之前集群的元数据都会丢失
- 解决：把3台机器上hadoop.tmp.dir 指定文件夹全部删除重新format一次
hadoop集群的启动方式
- 单节点逐个启动
  - hdfs集群
```
 hadoop-daemon.sh start|stop  namenode/datanode/secondarynamenode  
```
  - yarn集群
```
 yarn-daemon.sh start|stop  reourcemanager/nodemanager
```
  - 好处：可以精准的控制每个机器上每个进程启停状态便于后期维护集群
- 脚本一键启动
  - 前提是必须配置好 ssh免密登录指定slaves文件
  - hdfs集群
```
start-dfs.sh     stop-dfs.sh 
```
  - yarn集群
```
start-yarn.sh    stop-yarn.sh
```
  - 更狠的命令一键启动两个集群
```
start-all.sh  stop-all.sh
```
hadoop web-ui页面
- hdfs:http://namenode_ip:50070
- yarn:http://resourcemanager_ip:8088
初体验
- hdfs 存储文件集群
  - 本质就是用于文件存储的
  - 结构上也是目录树结构从/根目录开始
  - 文件夹是文件夹目录是目录
  - 操作起来比较慢？为什么慢？难道是分布式存储造成？
- yarn+mr
  - mr程序本质就是一个java程序
  - mr程序第一步去寻找yarn？为什么去？寻找资源。？
  - mr程序分为两个阶段的先map 再reduce
  - mr输出的结果好像有顺序字典序（a–z 0–9）

MapReduce jobhistory

记录已经完成的mr程序的信息历史任务信息

如何开启

vim  mapred-site.xml

<property>
	<name>mapreduce.jobhistory.address</name>
	<value>node-1:10020</value>
</property>
<property>
	<name>mapreduce.jobhistory.webapp.address</name>
	<value>node-1:19888</value>
</property>

把修改好的配置文件scp给其他机器上

scp -r /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/mapred-site.xml node-2:/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/

scp -r /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/mapred-site.xml node-3:/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/

单独启动关闭historyserver 服务（只需要配置指定的机器上启动即可）

mr-jobhistory-daemon.sh start historyserver
如果关闭的话 用下述命令
mr-jobhistory-daemon.sh start historyserver

访问浏览historyserver
注意事项
- historyserver 是否运行不影响hadoop集群正常工作只是为了更好查看历史运行信息的

hadoop hdfs 垃圾回收机制

何为垃圾回收

开启垃圾回收站把删除的文件首先放置在回收站中等待配置的时间结束进行真正的数据删除

如何开始

vim core-site.xml

<property>
	<name>fs.trash.interval</name>
	<value>1440</value>
</property>

把配置文件 scp给其他节点上

scp -r /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/core-site.xml node-2:/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/

scp -r /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/core-site.xml node-3:/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/

垃圾回收机制演示效果

未开启

[root@node-1 ~]# hadoop fs -rm /test/1.txt
Deleted /test/1.txt

开启

hadoop fs -rm /test/1.txt
19/07/18 16:18:17 INFO fs.TrashPolicyDefault: Moved: 'hdfs://node-1:8020/test/1.txt' to trash at: hdfs://node-1:8020/user/root/.Trash/Current/test/1.txt

本质是把删除文件首先移动一个指定的文件夹下面

恢复删除的数据

hadoop fs -mv /user/root/.Trash/Current/test/1.txt /test

跳过垃圾回收直接删除

skipTrash 选项删除文件，该选项不会将文件发送到垃圾箱。它将从HDFS 中完全删除

chenyanlong_v

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop_1

Hadoop1hadoop是什么狭义上特指Apache 的一款软件 java语言开发开源软件大数据问题解决处理平台Hadoop HDFS:分布式文件系统解决了海量数据存储问题Hadoop MapReduce:分布式计算框架解决了海量数据的计算问题Hadoop YARN:资源管理任务调度系统广义上特指hadoop 生态圈包括了大数据解决的各个不同步骤的软件甚至一些非apache 的项目也会处于生态圈中hadoop的优点和应用优点：扩容能
复制链接

扫一扫