Hadoop 基础篇

南城、每天都要学习呀

已于 2023-04-10 13:36:22 修改

阅读量159

点赞数

分类专栏：大数据学习笔记~Hadoop 文章标签： hadoop 大数据学习

于 2023-03-31 22:07:42 首次发布

本文链接：https://blog.csdn.net/2301_77331760/article/details/129884853

版权

前言

记录在学习大数据技术中的学习笔记

一、Hadoop介绍

Hadoop适合海量数据分布式存储和分布式计算

Hadoop的作者是Doug Cutting ，Hadoop这个作者的孩子给他的毛绒象玩具起的名字

二、Hadoop发行版介绍

Apache Hadoop：官方版本，开源

Cloudera Hadoop（CDH）：商业版本，对官方版本做了一些优化，提供收费的技术支持，提供界面操作，方便集群运维管理

HortonWorks（HDP）：开源，提供界面操作，方便运维管理

建议在实际工作中搭建大数据平台时选择CDH或者HDP，方便运维管理

三、Hadoop核心架构发展历史

Hadoop1.x

MapReduce（分布式计算）,HDFS（分布式存储）

Hadoop2.x

MapReduce，Others，YARN（资源管理），HDFS

Hadoop3.x

MapReduce，Others，YARN,HDFS

四、Hadoop三大核心组件介绍

Hadoop主要包含三大组件：HDFS+MapReduce+YARN

HDFS负责海量数据的分布式存储

MapReduce是一个计算模型，负责海量数据的分布式计算

YARN主要负责集群资源的管理和调度

五、Hadoop集群安装部署

a、伪分布式集群安装部署

伪分布式集群安装：使用一台Linux机器【建议在后续学习阶段使用伪分布式集群】

1.下载hadoop安装包

这里我使用的是hadoop3.2.0这个版本，下面是官网下载链接

https://archive.apache.org/dist/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gzhttps://archive.apache.org/dist/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz

2.设置静态ip

vi /etc/sysconfig/network-scripts/ifcfg-ens33

3、修改主机名

零时设置
hostname 主机名

永久设置
vi /etc/hostname

4.关闭防火墙

零时关闭
systemctl stop firewalld
查看防火墙状态
systemctl status firewalld
永久关闭
systemctl disable firewalld

5.ssh 免密登录

ssh-keygen -t rsa

一直回车就行

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

登录时就不需要密码了

6.安装jdk

找到自己下载的jdk安装包，并通过Xshell上传至Linux中，解压jdk安装包

tar -zxvf jdk-8u202-linux-x64.tar.gz

重命名一下

mv jdk-8u202-linux-x64.tar.gz jdk1.8

配置环境

vi /etc/profile

在文件最后添加（后面的路径根据自己jdk所在位置）

xport JAVA_HOME=/data/soft/jdk1.8
export PATH=.:$JAVA_HOME/bin:$PATH

重新加载一下，使环境变量生效

source /etc/profile

测试是否配置成功

java -version

7. 上传Hadoop安装包

8.解压Hadoop安装包

tar -zxvf hadoop-3.2.0.tar.gz

9.配置环境变量

vi /etc/profile

在文件最后面添加

最低0.47元/天解锁文章

南城、每天都要学习呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Hadoop 基础篇

Hadoop基础介绍 Hadoop伪分布搭建 Hadoop完全分布式搭建
复制链接

扫一扫

专栏目录