MoKKKi-CSDN博客

原创 14周笔记

outputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口，OutputFormat的实现类有TextOutputFormat，SequenceFileOutputFormat，自定义OutputFormat。FileInputFormat常见的接口实现类包括：TextInputFormat，KeyValueTextInput，NLineInputFormat，CombineTextInputFormat和自定义InputFormat等。

2025-06-16 10:33:45 879

原创第十六周笔记

YARN调度器分三种：（1）FIFO Scheduler ：先进先出调度器（2）Capacity Scheduler ：容器调度器（3）Fair Scheduler ：公平调度器。先进先出调度器，是最简单的调度聚，任务是按顺序执行的，哪个任务先提交，就先执行哪个任务，而且任务执行时资源利用率为100%。公平调度器所谓的“公平”，强调的是任务按队列公平的使用YARN资源，即，队列内的任务公平使用队列中的资源。（2）任务进度监控（跟踪任务，重启失败任务，记录任务的流水）

2025-06-16 10:33:22 657

原创第13周课堂笔记

3.1将MapTask传给我们的文本内容先转换成sting。1.汇总各个key的个数，把k3对应的v3，集合数字加起来。输入：<k3,v3>,v3是v2的同一个key的集合。3.3将单词输出为<单词，1>k2="1”v2=1。key代表偏移量，V1这一行的内容，Text。3.关联Mapper，Reducer业务类。2.指定本程序的jar包所在的本地路径。输入<0,lam somebody>4.指定Mapper输出的kv类型。5.指定最终输出的数据的kv类型。6.指定job的输入输出文件路径。

2025-05-26 10:15:13 330

原创第9周分布式计算系统课堂笔记

1.客户端代码设置的值 2.classpath下用户自定的配置文件 3.服务器端的自定义配置。

2025-05-19 10:32:08 144

原创第10周分布式计算系统课堂笔记

删除↑。

2025-05-19 10:31:46 896

原创第8周第2节课分布式计算系统笔记

【代码】第8周第2节课分布式计算系统笔记。

2025-04-15 11:52:15 121

原创总结/常用端口号

Hadoop3.X9870Hadoop2.X500702.常用的配置文件。

2025-04-14 11:02:22 237

原创第六周分布式计算系统笔记

HDFS（Hadoop distributed file system）是一个文件系统，用于存储文件，通过目标树来定位文件，其次，它是分布式的。HDFS中的文件在物理上是分块储存(Block),块的大小可以通过配費参数 (dfs.blocksize)来规定，HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。文件上传hdfs的时候，Client特文件切分成一个一个的Block,然后进行上传。迫切需要一种系统来管理多台机器上的文件，hdfs只是分布式文件管理系统中的一种。

2025-03-31 12:04:35 364

原创分布式计算系统课堂笔记

hadoop环境搭建成功。

2025-03-24 11:04:24 464

原创分布式计算系统hadoop实验笔记

cat：拼接，xx添加到xx里面。

2025-03-12 15:00:39 105

原创分布式计算系统hadoop实验笔记

source ~/.bashrc：环境变量生效。docker ps -a：查看所有启动的容器。vim ~/.bashrc：编译环境变量。docker：查看启动的容器。insert模式:按i。

2025-03-12 14:59:34 127

原创分布式计算系统第二课

HDFS: Hadoop Distributed File System，是Hadoop项。MapReduce采用“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个子节点共同完成，然后整合各个子。简而言之，MapReduce就是“分散任务，汇总结果”1.3.1 Hadoop对Google三篇论文实现。目的核心子项目，是分布式计算中数据存储管理的基础。节点的中间结果，得到最终的计算结果。把所有的数据存入一张表。通过牺牲空间来换取时间。它是对GFS论文的实现。问题：引起数据的冗余。

2025-03-04 10:55:18 161