- 博客(13)
- 收藏
- 关注
原创 14周笔记
outputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口,OutputFormat的实现类有TextOutputFormat,SequenceFileOutputFormat,自定义OutputFormat。FileInputFormat常见的接口实现类包括:TextInputFormat,KeyValueTextInput,NLineInputFormat,CombineTextInputFormat和自定义InputFormat等。
2025-06-16 10:33:45
879
原创 第十六周笔记
YARN调度器分三种: (1)FIFO Scheduler :先进先出调度器 (2)Capacity Scheduler :容器调度器 (3)Fair Scheduler :公平调度器。先进先出调度器,是最简单的调度聚,任务是按顺序执行的,哪个任务先提交,就先执行哪个任务,而且任务执行时资源利用率为100%。公平调度器 所谓的“公平”,强调的是任务按队列公平的使用YARN资源,即,队列内的任务公平使用队列中的资源。(2)任务进度监控(跟踪任务,重启失败任务,记录任务的流水)
2025-06-16 10:33:22
657
原创 第13周课堂笔记
3.1将MapTask传给我们的文本内容先转换成sting。1.汇总各个key的个数,把k3对应的v3,集合数字加起来。输入:<k3,v3>,v3是v2的同一个key的集合。3.3将单词输出为<单词,1>k2="1”v2=1。key代表偏移量,V1这一行的内容,Text。3.关联Mapper,Reducer业务类。2.指定本程序的jar包所在的本地路径。输入<0,lam somebody>4.指定Mapper输出的kv类型。5.指定最终输出的数据的kv类型。6.指定job的输入输出文件路径。
2025-05-26 10:15:13
330
原创 第六周分布式计算系统笔记
HDFS(Hadoop distributed file system)是一个文件系统,用于存储文件,通过目标树来定位文件,其次,它是分布式的。HDFS中的文件在物理上是分块储存(Block),块的大小可以通过配費参数 (dfs.blocksize)来规定,HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。文件上传hdfs的时候,Client特文件切分成一个一个的Block,然后进行上传。迫切需要一种系统来管理多台机器上的文件,hdfs只是分布式文件管理系统中的一种。
2025-03-31 12:04:35
364
原创 分布式计算系统hadoop实验笔记
source ~/.bashrc:环境变量生效。docker ps -a:查看所有启动的容器。vim ~/.bashrc:编译环境变量。docker:查看启动的容器。insert模式:按i。
2025-03-12 14:59:34
127
原创 分布式计算系统第二课
HDFS: Hadoop Distributed File System,是Hadoop项。MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个子节点共同完成,然后整合各个子。简而言之,MapReduce就是“分散任务,汇总结果”1.3.1 Hadoop对Google三篇论文实现。目的核心子项目,是分布式计算中数据存储管理的基础。节点的中间结果,得到最终的计算结果。把所有的数据存入一张表。通过牺牲空间来换取时间。它是对GFS论文的实现。问题:引起数据的冗余。
2025-03-04 10:55:18
161
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅