hadoop入门1_介绍及单机环境搭建

最新推荐文章于 2022-11-21 14:42:57 发布

如风的岁月

最新推荐文章于 2022-11-21 14:42:57 发布

阅读量346

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/qq_14919937/article/details/119872267

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

hadoop学习_1

hadoop入门及介绍

hadoop入门及介绍

目标：
	1 hadoop的入门
	2 hadoopHDFS
	3 hadoop的MapReduce
	4 hadoop的Yarn
	5 hadoop的优化
	6 hadoop的HA
	7 常见的错误和解决方案

1.1大数据概述

大数据主要解决海量数据的存储和分析的问题

1.1.1大数据概念

大数据主要解决海量数据的存储和分析的问题

1.1.2大数据特点

1 大量
2 高速  
3 多样
4 低价值密度

1.1.3大数据应用场景

1 物流仓储
2 零售
3 旅游
4 商品广告推荐
5 保险
6 金融 防范风险，风控
7 房地产
8 人工智能

1.1.4大数据发展前景

国家重点发展，前途不可限量

1.1.5大数据业务流程

在这里插入图片描述

1.1.6大数据部门组织架构

在这里插入图片描述

2.1hadoop生态

2.1.1hadoop的发展历史及版本

在这里插入图片描述

2.1.2hadoop的优势

1 高可靠性
2 高扩展
3 高容错
4 高效性

2.1.3hadoop的组成

在这里插入图片描述

2.1.4HDFS的架构

1 NameNode（nn）:是HDFS的大哥，管理所有存储的真实数据的元数据信息（文件名，文件大小，创建时间等）
2 DataNode（nn）:是HDFS的小弟，存储真实的数据，以块为单位，默认128M,比如一个200M的文件，会存2块 ，一块128M，一块72M
3 SecondaryNameNode(2nn)：是NameNode的秘书，辅助NameNode干活，分担NameNode的工作，减少NameNode的压力

2.1.5Yarn的架构

1 Resource Manager（rm）：是Yarn的大哥，管理和分配集群中所有的资源（来自每个机器的资源）
2 Node Manager（nm）：是Yarn的小弟，管理所在机器的资源
3 Application Master（am）：每个Job对应一个Application Master，主要负责Job的执行过程（资源申请，监控，容错等）
4 container：对资源的抽象封装，防止资源被侵占

在这里插入图片描述

2.1.6MapReduce的思想

思想：先分再合，分：map，合：reduce

在这里插入图片描述

3.1 hadoop的生态体系

在这里插入图片描述

3.1.1搭建开发环境

1 单台 配置： 内存2G 后续可能要4G，磁盘大小50G
2 准备一台模板虚拟机，后续克隆就好
3 准备初始化安装
1）sudo yum install -y epel-release
2）sudo yum install -y psmisc nc net-tools rsync vim lrzsz ntp	libzstd openssl-static tree iotop
3) 关闭防火墙
查看防火墙：systemctl status firewalld
关闭：systemctl disable firewalld
再次查看：systemctl is-enabled firewalld  显示disabled  表明关闭成功
4 将atguigu这个账号配置临时root权限
1）vim /etc/sudoers
2) 配置atguigu 用户的临时权限

在这里插入图片描述
2、在/opt目录下创建文件夹
（1）在/opt目录下创建module、software文件夹

	sudo mkdir module
	sudo mkdir software

（2）修改module、software文件夹的所有者

sudo chown atguigu:atguigu /opt/module /opt/software

3、安装JDK

将JDK安装包上传到Linux /opt/software目录下
解压JDK到/opt/module目录下
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

配置JDK环境变量,两种方式:

第一种:
在这里插入图片描述
（2）保存后退出 :wq

（3）重启xshell窗口，让环境变量生效

测试JDK是否安装成功

java -version

如果能看到以下结果、则Java正常安装

java version “1.8.0_212”

注意：重启（如果java -version可以用就不用重启）

sudo reboot

4、安装Hadoop

Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

将hadoop安装包上传到/opt/software目录下

解压安装文件到/opt/module下面

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

查看是否解压成功

ls /opt/module/

将Hadoop添加到环境变量

（1）获取Hadoop安装路径 pwd
（2）打开/etc/profile文件   ./profile.d

sudo vim /etc/profile

在profile文件末尾添加：（shitf+g）或者添加到my_env.sh 中

在这里插入图片描述
保存后退出:wq

（4）让修改后的文件生效

source /etc/profile

（5) 测试是否安装成功

hadoop version

（6) 重启(如果Hadoop命令不能用再重启)

sync
或者
sudo reboot

5、Hadoop重要目录

（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

如风的岁月

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop入门1_介绍及单机环境搭建

hadoop学习_1hadoop入门及介绍1.1大数据概述1.1.1大数据概念1.1.2大数据特点1.1.3大数据应用场景1.1.4大数据发展前景1.1.5大数据业务流程1.1.6大数据部门组织架构2.1hadoop生态2.1.1hadoop的发展历史及版本2.1.2hadoop的优势2.1.3hadoop的组成2.1.4HDFS的架构2.1.5Yarn的组成2.1.6MapReduce的思想3.1 hadoop的生态体系3.1.1搭建开发环境hadoop入门及介绍1.1大数据概述1.1.1大数据概念
复制链接

扫一扫

专栏目录