自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 YARN架构

ApplicationMaster (主应用):ApplicationMaster是一个详细的框架库,它结合从 ResourceManager 获得的资源和 NodeManager 协同工作来运行和监控任务。YARN的架构是主从架构,主机为ResourceManager,从机为NodeManager,其中ResourceManager负责接收客户端的作业请求以及为作业分配相应的NodeManager资源,在NodeManager启动Container资源容器,在资源容器中运行相关作业。

2025-06-20 16:18:26 269

原创 YARN调度器

(2) Capacity Schedule:容量调度器 分成多个队列来执行不同的任务,每个队列占用一定资源,可以看作是FIFO Scheduler的多队列版本。(3) Fair Scheduler:公平调度器 所谓的“公平”,强调的是任务按队列公平的使用YARN资源,即,队列内的任务公平使用队列中的资源。(1)FIFO Scheduler:先进先出调度器,是最简单的调度器,任务是按顺序执行的,哪个任务先提交,就先执行哪个任务,而且任务执行时资源利用率为100%。4.4.1 YARN调度器。

2025-06-20 16:12:12 407

原创 hdfs 调用api

/参数解读:小字 noolean delsrc:是否将源文件删除;hdfs fsck /jdk......... -files -blocks -locations(只能在namenode里面查看,datanode查看不了)//参数解读:参数1:表示删除源数据;参数3:源数据的路径;参数4:目的地路径(存放到hdfs系统的具体路径)namenode存储地址 /usr/local/hadoop/tmp/dfs/name。* 另外一台机器调用集群,对集群进行操作(客户端代码操作集群)

2025-06-20 16:09:23 790

原创 22222

7.客户端开始往DataNode1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,DataNode1收到一个Packet就会传给DataNode2,DataNode2传给DataNode3;DataNode1每传一个Packet会放入一个应答队列等待应答。5.客户端通过FSDataOutputstream模块请求DataNode1上传数据,DataNode1收到请求后会继续调用DataNode2,然后DataNode2调用DataNode3,将这个通信管道建立完成。

2025-04-29 10:32:02 213

原创 111111

接下来需要配置JAVA_HOME环境变量,为了方便起见,这里直接在~/.bachrc这个文件中进行设置,采用这种配置方式时,只对当前登录的单个用户生效,当该用户登录以及每次打开新的Shell时,它的环境变量文件.bashrc会被读取。ps:不要使用 docker start master slave1 slave2 slave3并发启动多容器,使用该命令启动容器时,容器的启动先后顺序是不确定的,这可能会导致容器分配到的IP和创建容器时指定的IP不一致,导致集群无法启动。

2025-04-28 21:50:21 405

原创 1111111

2025-04-28 11:41:26 134

原创 hadoope配置文件,参数的优先级

参数优先级排序:(1) 客户端代码中设置的值(2) ClassPath下的用户自定义的配置文件(project下的配置文件,例如/root/IdeaProjects/hdfaClient/src/main/resources/hdfs-site.xml)服务器的自定义配置文件 (XXX-site.xml 路径为/usr/local/hadoop/etc/hadoop)(4)服务器的默认配置(XXX-default.xml)

2025-04-22 11:44:02 170

原创 第二次笔记

2004年,Google公司发表论文MapReduce:Simplified Data Processing on Large Clusters,介绍并行计算模式MapReduce,海量数据的高效计算方法。2003年,Google公司发表论文The Google File System,介绍GFS分布文件系统,主要讲解海量数据的可靠存储方法。分发给一个主节点管理下的各今子节点共同完成,然后整合各个子节点的中间结果,得到最终的计算结果。管理节点:数据元文件(文件名,文件块,文件块所在数据节点)

2025-03-04 10:37:42 408

原创 分布式计算课程笔记

1.volume:体积(大量化):存储量大,增量大(TB,PB,EB)2.Variety种类多:来源多,格式多格式多1.结构化数据:有固定格式。关系型数据库(Mysql,)excel,交易记录2.半结构化数据:具有一定层次结构,JSON文件,XML文件,文件邮件3.非结构化数据:无固定格式。3.Velocity:快速化4.Value:价值密度低解决大数据问题的核心是大数据技术。

2025-02-25 12:03:10 353

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除