前言
记录 在学习大数据技术中的学习笔记
目录
一、Hadoop介绍
Hadoop适合海量数据分布式存储和分布式计算
Hadoop的作者是Doug Cutting ,Hadoop这个作者的孩子给他的毛绒象玩具起的名字
二、Hadoop发行版介绍
Apache Hadoop:官方版本,开源
Cloudera Hadoop(CDH):商业版本,对官方版本做了一些优化,提供收费的技术支持,提供界面操作,方便集群运维管理
HortonWorks(HDP):开源,提供界面操作,方便运维管理
建议在实际工作中搭建大数据平台时选择CDH或者HDP,方便运维管理
三、Hadoop核心架构发展历史
Hadoop1.x
MapReduce(分布式计算),HDFS(分布式存储)
Hadoop2.x
MapReduce,Others,YARN(资源管理),HDFS
Hadoop3.x
MapReduce,Others,YARN,HDFS
四、Hadoop三大核心组件介绍
Hadoop主要包含三大组件:HDFS+MapReduce+YARN
HDFS负责海量数据的分布式存储
MapReduce是一个计算模型,负责海量数据的分布式计算
YARN主要负责集群资源的管理和调度
五、Hadoop集群安装部署
a、伪分布式集群安装部署
伪分布式集群安装:使用一台Linux机器【建议在后续学习阶段使用伪分布式集群】
1.下载hadoop安装包
这里我使用的是hadoop3.2.0这个版本,下面是官网下载链接
2.设置静态ip
vi /etc/sysconfig/network-scripts/ifcfg-ens33
3、修改主机名
零时设置
hostname 主机名
永久设置
vi /etc/hostname
4.关闭防火墙
零时关闭
systemctl stop firewalld
查看防火墙状态
systemctl status firewalld
永久关闭
systemctl disable firewalld
5.ssh 免密登录
ssh-keygen -t rsa
一直回车就行
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
登录时就不需要密码了
6.安装jdk
找到自己下载的jdk安装包,并通过Xshell上传至Linux中,解压jdk安装包
tar -zxvf jdk-8u202-linux-x64.tar.gz
重命名一下
mv jdk-8u202-linux-x64.tar.gz jdk1.8
配置环境
vi /etc/profile
在文件最后添加(后面的路径根据自己jdk所在位置)
xport JAVA_HOME=/data/soft/jdk1.8
export PATH=.:$JAVA_HOME/bin:$PATH
重新加载一下,使环境变量生效
source /etc/profile
测试是否配置成功
java -version
7. 上传Hadoop安装包
8.解压Hadoop安装包
tar -zxvf hadoop-3.2.0.tar.gz
9.配置环境变量
vi /etc/profile
在文件最后面添加