大数据-2：Hadoop生态以及HDFS部署

最新推荐文章于 2024-05-05 18:54:57 发布

LeeHoo0

最新推荐文章于 2024-05-05 18:54:57 发布

阅读量382

点赞数 1

文章标签： hadoop big data

本文链接：https://blog.csdn.net/Fancyll_Lee/article/details/120427794

版权

本文介绍了Hadoop的起源、主要组件及生态，包括HDFS、MapReduce和Hadoop的版本。详细阐述了单机版Hadoop的安装过程，并逐步讲解了Hadoop运行的三种模式：本地模式、伪分布式和全分布式集群的配置与启动。在全分布式集群部署中，通过NFS实现不同节点间的文件同步，确保集群数据一致性。

摘要由CSDN通过智能技术生成

1. Haoop简介

MFS作为分布式文件系统，有很强的灵活扩展性，常用于网盘等；但做数据挖掘，分析用户数据时，常用Hadoop生态下的HDFS文件系统；

HDFS起源于GFS，GFS为Google的分布式文件系统Google File System
MapReduce:Google的MapReduce开源分布式并行计算框架，演变为Hadoop MapReduce
BigTable：一个大型的分布式数据库，演变为Hbase

Hadoop包含3各主流版本：

Apache基金会Hadoop，原生版本，需要考虑不同软件兼容性，无UI界面
Cloudera版本，简称CDH
Hortonworks版本，简称HDP

Hadoop的框架最核心的设计就是：HDFS和MapReduce

HDFS为海量的数据提供了存储
MapReduce为海量的数据提供了计算

大数据技术生态体系：
在这里插入图片描述

Hadoop框架包括以下四个模块：

Hadoop Common：这些时其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象，并包含启动Hadoop所需的Java文件和脚本。
Hadoop YARN：这是一个用于作业调度和集群资源管理的框架
Hadoop DIstributed File System（HDFS）：分布式文件系统，提供对应用程序数据的高吞吐量访问
Hadoop MapReduce：这是基于YARN的用于并行处理大数据集的系统

2. 安装单机版Hadoop

Apache版本官网
新建一个虚拟机server11
新建一个用户hadoop并给予密码：useradd hadoop，echo ***|passwd --stdin hadoop
首先在server11上准备安装文件：scp hadoop-3.2.1.tar.gz jdk-8u181-linux-x64.tar.gz server11:
放在hadoop主目录下并修改拥有者为hadoop，切换hadoop用户：
解压：tar zxf jdk-8u181-linux-x64.tar.gz
解压完成后的为二进制程序，可以直接调用，做软链接至java：ln -s jdk1.8.0_181/ java
请添加图片描述
同样解压软链接：tar zxf hadoo

最低0.47元/天解锁文章

LeeHoo0

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据-2：Hadoop生态以及HDFS部署

文章目录1. Haoop简介2. 安装单机版Hadoop3. Hadoop运行3.1 独立运行/Local (Standalone) Mode3.2 伪分布式集群/Pseudo-Distributed Mode3.3 全分布式集群/Fully-Distributed Mode1. Haoop简介MFS作为分布式文件系统，有很强的灵活扩展性，常用于网盘等；但做数据挖掘，分析用户数据时，常用Hadoop生态下的HDFS文件系统；HDFS起源于GFS，GFS为Google的分布式文件系统Google Fi
复制链接

扫一扫