hadoop

Git122

已于 2024-07-25 10:16:34 修改

阅读量138

点赞数 1

分类专栏： hadoop 文章标签： hadoop 大数据

于 2024-07-22 11:04:55 首次发布

本文链接：https://blog.csdn.net/2302_76694571/article/details/140604082

版权

hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Hadoop

Hadoop的简单介绍

分布式:
	存储: hdfs : hadoop distributed file system
	计算: mapreduce : map + shuffle + reduce
面向集群: 
	构成:
		管理数据
			Namenode  		* 2(Active | Standby)
				Datanode	* N
		管理资源和任务
			yarn
				resourcemanager : 资源(CPU:MEN:DISK)
				applicationManager : 任务(计算)
				nodemanager * N
		高可靠,高可用
			副本机制: 3份

Hadoop的启动

# 首次启动
    # 格式化 namenode
    hdfs namenode -format
    # 格式化 namenode 之后
    cd /opt/software/hadoop-3.1.3/data/dfs/name/current
	# 启动服务
    start-all.sh
        
# 再次启动
    # 单启或者关闭
    hdfs --daemon start|stop HDFS_SERVICE_NAME
    yarn --daemon start|stop YARN_SERVICE_NAME
    mapred --daemon start historyserver
    
    #群启或者关闭
    start-dfs.sh
    start-yarn.sh

hadoop启动后的进程

1698 NameNode
2018 SecondaryNameNode
2898 Jps
2419 NodeManager
1829 DataNode
2287 ResourceManager

hadoop启动后的服务

HDFS（Hadoop Distributed File System）：

    HDFS是Hadoop的分布式文件系统，它包括NameNode（主控节点）和多个DataNode（数据节点）

    HDFS用于存储和管理数据，确保数据的高可用和容错性

YARN ResourceManager：

    YARN ResourceManager是Hadoop的资源管理器，它负责集群中的资源分配和任务调度。

    它包括两个主要组件：ResourceScheduler和ApplicationManager

YARN NodeManager：

    YARN NodeManager运行在每个数据节点上，负责监控资源使用情况，并向ResourceManager注册节点上的可用资源，它还负责执行ResourceManager分配的任务。

MapReduce任务跟踪器和作业跟踪器：

    这两个组件用于监视和跟踪MapReduce作业的执行状态和进度。

日志和监控：

    Hadoop集群生成各种日志和指标，这些日志和指标可以用于监控和诊断集群性能、问题和健康状态。