Hadoop学习笔记DAY1-入门

最新推荐文章于 2024-06-09 17:29:35 发布

Kevin-dut

最新推荐文章于 2024-06-09 17:29:35 发布

阅读量707

点赞数 22

文章标签： hadoop 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kkddd35/article/details/136569721

版权

1概述

Hadoop是由Apache基金会开发的分布式系统基础架构，主要解决海量数据存储和分析计算问题

广义来讲，Hadoop通常指Hadoop生态圈。

三大版本：Apache、Cloudera（对应CDH）、Hortonworks（对应HDP）

Hadoop优势（4高）

1）高可靠性：底层维护多个数据副本，即使某个计算元素或存储出现故障，也不会导致数据丢失

2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点

3）高效性：在MapReduce（MR）的思想下，Hadoop是并行工作的，以加快任务处理

4）高容错性：能够自动将失败的任务重新分配

Hadoop组成（面试重点）

Hadoop1.x：MapReduce（计算+资源调度）、HDFS（数据存储）、Common（辅助工具）

其中MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大

Hadoop2.x：增加了Yarn：只负责资源的调度，而解放MR只负责运算

Hadoop3.x：在组成上没有变化

HDFS架构概述

1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等

2）DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。

注：块数据的校验和是一种用于验证数据完整性的技术，它通常用于存储或传输数据时，以确保数据在传输或存储过程中没有发生损坏或篡改。

3）Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份

YARN架构概述

Yet Another Resource Negotiator，另一种资源协调者，是Hadoop的资源管理器。

1）ResourceManager（RM）：整个集群资源（内存、CPU等）的老大

2）NodeManager（NM）：单个节点服务器资源老大

3）ApplicationMaster（AM）：单个任务运行的老大

4）Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源（内存，CPU，磁盘，网络等）

MapReduce架构概述

将计算分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

三者关系

大数据技术生态体系

2Hadoop运行环境搭建（开发重点）

2.1模版虚拟机环境准备

安装模版虚拟机 Hadoop100内存4G硬盘50G Linux系统以CentOS7.5-x86-1804为例

使用yum安装 epel-release， net-tool， vim

关闭防火墙 systemctl stop firewalld，关闭防火墙开机自启 systemctl disable firewalld.service

创建用户密码，配置用户具有root权限，便于后期加sudo执行root权限的命令

在/opt目录下创建文件夹module、software并修改所有者和所属组

重启虚拟机 reboot

2.2克隆虚拟机

利用模版机hadoop100，克隆三台hadoop102，hadoop103，hadoop104

修改克隆机IP

1）修改克隆机的静态IP

2）查看Linux虚拟机的虚拟网络编辑器修改部分设置

3）查看Windows系统适配器VMware Network Adapter VMnet8的IP地址

4）保证Linux系统ifcfg-ens33文件中IP地址、虚拟网络编辑器地址和Windows系统VM8网络IP地址相同

修改克隆机主机名

1）修改主机名称

2）配置Linux克隆机主机名称映射hosts文件，打开/etc/hosts，并添加内容

3）重启克隆机hadoop102

4）修改windows的主机映射文件（hosts文件）

2.3在hadoop102安装JDK

1）卸载现有JDK

2）用XShell传输工具将JDK导入到opt目录下的software文件夹下面

3）在Linux系统查看是否导入成功

4）解压JDK到/opt/module目录下

5）配置JDK环境变量

6）测试

2.4在hadoop102安装Hadoop

1）用XShell文件传输工具将hadoop-3.1.3.tar.gz导入到opt下的software文件夹下

2）进入路径

3）解压安装文件到/opt/module

4）查看是否解压成功

5）加Hadoop添加到环境变量

6）测试，不成功就重启

2.5Hadoop目录结构

1）查看Hadoop目录结构

2）重要目录

3Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式

本地模式：单机运行，用来演示，生产不用

伪分布式模式：单机运行，具备所有功能，个别小公司用来测试，生产不用

完全分布模式：多台服务器组成分布式环境，生产使用

完全分布式运行模式

分析：

准备三台客户机（关闭防火墙、静态IP、主机名称）—安装JDK—配置环境变量—安装Hadoop—配置环境变量—配置集群—单点启动—配置ssh—群起并测试集群

编写集群分发脚本xsync

1）scp（secure copy）安全拷贝

scp可以实现服务器与服务器之间的数据拷贝

基本用法

2）rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点

与scp区别：用rsync比scp快，rsync只对差异文件做更新，scp是把所有文件复制过去

基本语法

3）xsync集群分发脚本

需求：循环复制文件到所有节点的相同目录下

需求分析：

脚本实现

SSH无密登录配置

1）配置ssh

基本语法： ssh 另一台电脑的IP地址

2）无密钥配置

免密登录原理

生成公钥和私钥

将公钥拷贝到要免密登录的目标机器上

.ssh文件夹下（~/.ssh）的文件功能解释

集群配置

1）集群部署规划

注：NameNode和SecondaryNameNode不要安装在同一台服务器

ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

2）配置文件说明

Hadoop配置文件分两类，默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值

1.默认配置文件

2.自定义配置文件

core-site.xml等四个对应的配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改

3）配置集群

核心配置文件——配置core-site.xml

HDFS配置文件——配置hdfs-site.xml

YARN配置文件——配置yarn-site.xml

MapReduce配置文件——配置mapred-site.xml

4）在集群上用xsync分发配置好的Hadoop配置文件

5）检查

群起集群

1）配置workers

添加如下内容

xsync同步所有节点配置文件

2）启动集群

1.如果集群是第一次启动，需要在102节点格式化NameNode

        $  hdfs namenode -format

2.启动HDFS

$ sbin/start-dfs.sh

3.在配置了ResourceManager的节点（103）启动YARN

start-yarn.sh

3）集群基本测试

上传 hadoop fs -put

查看HDFS文件存储路径

查看HDFS在磁盘存储文件内容

配置历史服务器

配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上

好处：便于查看程序运行详情，方便开发与调试

开启需要重启NodeManager，ResourceManager，HistoryServer

集群启动停止方式

编写Hadoop集群常用脚本

1）Hadoop集群启停脚本（包含HDFS，Yarn，HistoryServer）：myhadoop.sh

2）查看三台服务器Java进程脚本：jpsall

常用端口号说明

集群时间同步

如果服务器在公网环境（能连接外网），可以不采用集群时间同步，因为服务器会定期和公网时间进行校准

如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步

1）需求

找一个机器作为时间服务器，所有机器与这台集群时间进行定时的同步，生产环境根据任务对时间的准确程度要求周期同步。

2）时间服务器配置（必须root用户）

1.查看所有节点ntpd服务状态和开机自启动状态

NTP（Network Time Protocol）配置文件。NTP 是一种用于同步计算机系统时间的网络协议，它可以让计算机系统通过网络获取准确的时间信息，以保证系统时间的一致性和准确性。

在 Linux 系统中，NTP 的配置文件通常位于 /etc/ntp.conf 路径下

2.修改hadoop102的ntp.comf配置文件

3）其他机器配置（必须root用户）

1.关闭所有节点上ntp服务和自启动

关注

22
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
Hadoop学习笔记DAY1-入门

1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等2）DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。注：块数据的校验和是一种用于验证数据完整性的技术，它通常用于存储或传输数据时，以确保数据在传输或存储过程中没有发生损坏或篡改。3）Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份。
复制链接

扫一扫

Kevin-dut CSDN认证博客专家 CSDN认证企业博客

码龄2年

大连理工大学

21: 原创

117万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

590: 积分

277: 粉丝

379: 获赞

14: 评论

405: 收藏

私信

关注

热门文章

最新评论

Java 沉淀-2
CSDN-Ada助手: 恭喜您发布第20篇博客《Java 沉淀-2》，持续创作不易，您的辛勤付出与努力让我们看到了您对Java的深刻理解和热爱。希望您能继续保持这样的创作热情，不断积累经验和知识，让读者在您的博客中受益匪浅。或许下一步可以尝试探讨Java在实际项目中的应用经验，或者分享一些解决问题的思考过程，让读者更深入地了解Java的实践应用。期待您更多精彩的创作！
离线数仓-数据仓库系统
ha_lydms: 我很感激作者为我们带来了这么多优秀的内容，让我觉得自己在每次阅读中都得到了启发和提升。
排序算法-基础
CSDN-Ada助手: 恭喜您撰写了关于排序算法基础的博客！不断学习和分享知识是非常有价值的。希望您能继续保持创作的热情，探索更多深入的算法内容，并结合实际应用场景进行分析和讨论，这样可以使您的博客更加丰富和有趣。期待您未来更多的精彩作品！祝您写作愉快！
算法基础-时空复杂度
CSDN-Ada助手: 恭喜您在博客领域再次探讨了算法基础-时空复杂度这一重要主题！持续不断地分享知识对读者和自身都是极大的帮助。接下来，或许您可以考虑结合实际案例，深入探讨算法在解决问题中的应用，这将进一步丰富您的博客内容。期待您更多的精彩创作！
ACM模式基础输入-python
CSDN-Ada助手: 恭喜你发布了第15篇博客！看来你对ACM模式基础输入-python有着深入的理解，希望你能继续保持创作的热情和努力。接下来可以考虑深入探讨一些高级的ACM模式或者结合其他编程语言进行实践，相信你会有更多的收获和成长。期待看到你更多精彩的作品！

大家在看

Ubuntu22.04.4部署zabbix 530

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。