是的607-CSDN博客

原创 YARN架构

ApplicationMaster （主应用）：ApplicationMaster是一个详细的框架库，它结合从 ResourceManager 获得的资源和 NodeManager 协同工作来运行和监控任务。YARN的架构是主从架构，主机为ResourceManager，从机为NodeManager，其中ResourceManager负责接收客户端的作业请求以及为作业分配相应的NodeManager资源，在NodeManager启动Container资源容器，在资源容器中运行相关作业。

2025-06-20 16:18:26 269

原创 YARN调度器

(2) Capacity Schedule：容量调度器分成多个队列来执行不同的任务，每个队列占用一定资源，可以看作是FIFO Scheduler的多队列版本。(3) Fair Scheduler：公平调度器所谓的“公平”，强调的是任务按队列公平的使用YARN资源，即，队列内的任务公平使用队列中的资源。（1）FIFO Scheduler：先进先出调度器，是最简单的调度器，任务是按顺序执行的，哪个任务先提交，就先执行哪个任务，而且任务执行时资源利用率为100%。4.4.1 YARN调度器。

2025-06-20 16:12:12 407

原创 hdfs 调用api

/参数解读：小字 noolean delsrc：是否将源文件删除；hdfs fsck /jdk......... -files -blocks -locations（只能在namenode里面查看，datanode查看不了)//参数解读：参数1：表示删除源数据；参数3：源数据的路径；参数4：目的地路径（存放到hdfs系统的具体路径）namenode存储地址 /usr/local/hadoop/tmp/dfs/name。* 另外一台机器调用集群，对集群进行操作（客户端代码操作集群）

2025-06-20 16:09:23 790

原创 22222

7.客户端开始往DataNode1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存)，以Packet为单位，DataNode1收到一个Packet就会传给DataNode2,DataNode2传给DataNode3；DataNode1每传一个Packet会放入一个应答队列等待应答。5.客户端通过FSDataOutputstream模块请求DataNode1上传数据，DataNode1收到请求后会继续调用DataNode2，然后DataNode2调用DataNode3,将这个通信管道建立完成。

2025-04-29 10:32:02 213

原创 111111

接下来需要配置JAVA_HOME环境变量，为了方便起见，这里直接在~/.bachrc这个文件中进行设置，采用这种配置方式时，只对当前登录的单个用户生效，当该用户登录以及每次打开新的Shell时，它的环境变量文件.bashrc会被读取。ps：不要使用 docker start master slave1 slave2 slave3并发启动多容器，使用该命令启动容器时，容器的启动先后顺序是不确定的，这可能会导致容器分配到的IP和创建容器时指定的IP不一致，导致集群无法启动。

2025-04-28 21:50:21 405

原创 1111111

2025-04-28 11:41:26 134

原创 hadoope配置文件，参数的优先级

参数优先级排序：(1) 客户端代码中设置的值(2) ClassPath下的用户自定义的配置文件(project下的配置文件，例如/root/IdeaProjects/hdfaClient/src/main/resources/hdfs-site.xml)服务器的自定义配置文件 (XXX-site.xml 路径为/usr/local/hadoop/etc/hadoop)(4)服务器的默认配置(XXX-default.xml)

2025-04-22 11:44:02 170

原创第二次笔记

2004年，Google公司发表论文MapReduce：Simplified Data Processing on Large Clusters，介绍并行计算模式MapReduce，海量数据的高效计算方法。2003年，Google公司发表论文The Google File System，介绍GFS分布文件系统，主要讲解海量数据的可靠存储方法。分发给一个主节点管理下的各今子节点共同完成，然后整合各个子节点的中间结果，得到最终的计算结果。管理节点：数据元文件（文件名，文件块，文件块所在数据节点）

2025-03-04 10:37:42 408

原创分布式计算课程笔记

1.volume:体积（大量化）：存储量大，增量大（TB，PB，EB）2.Variety种类多：来源多，格式多格式多1.结构化数据：有固定格式。关系型数据库（Mysql，）excel，交易记录2.半结构化数据：具有一定层次结构，JSON文件，XML文件，文件邮件3.非结构化数据：无固定格式。3.Velocity：快速化4.Value：价值密度低解决大数据问题的核心是大数据技术。

2025-02-25 12:03:10 353

2302_80143096的博客