自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 14周笔记

outputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口,OutputFormat的实现类有TextOutputFormat,SequenceFileOutputFormat,自定义OutputFormat。FileInputFormat常见的接口实现类包括:TextInputFormat,KeyValueTextInput,NLineInputFormat,CombineTextInputFormat和自定义InputFormat等。

2025-06-16 10:33:45 879

原创 第十六周笔记

YARN调度器分三种: (1)FIFO Scheduler :先进先出调度器 (2)Capacity Scheduler :容器调度器 (3)Fair Scheduler :公平调度器。先进先出调度器,是最简单的调度聚,任务是按顺序执行的,哪个任务先提交,就先执行哪个任务,而且任务执行时资源利用率为100%。公平调度器 所谓的“公平”,强调的是任务按队列公平的使用YARN资源,即,队列内的任务公平使用队列中的资源。(2)任务进度监控(跟踪任务,重启失败任务,记录任务的流水)

2025-06-16 10:33:22 657

原创 第13周课堂笔记

3.1将MapTask传给我们的文本内容先转换成sting。1.汇总各个key的个数,把k3对应的v3,集合数字加起来。输入:<k3,v3>,v3是v2的同一个key的集合。3.3将单词输出为<单词,1>k2="1”v2=1。key代表偏移量,V1这一行的内容,Text。3.关联Mapper,Reducer业务类。2.指定本程序的jar包所在的本地路径。输入<0,lam somebody>4.指定Mapper输出的kv类型。5.指定最终输出的数据的kv类型。6.指定job的输入输出文件路径。

2025-05-26 10:15:13 330

原创 第9周分布式计算系统课堂笔记

1.客户端代码设置的值 2.classpath下用户自定的配置文件 3.服务器端的自定义配置。

2025-05-19 10:32:08 144

原创 第10周分布式计算系统课堂笔记

删除↑。

2025-05-19 10:31:46 896

原创 第8周第2节课分布式计算系统笔记

【代码】第8周第2节课分布式计算系统笔记。

2025-04-15 11:52:15 121

原创 总结/常用端口号

Hadoop3.X9870Hadoop2.X500702.常用的配置文件。

2025-04-14 11:02:22 237

原创 第六周分布式计算系统笔记

HDFS(Hadoop distributed file system)是一个文件系统,用于存储文件,通过目标树来定位文件,其次,它是分布式的。HDFS中的文件在物理上是分块储存(Block),块的大小可以通过配費参数 (dfs.blocksize)来规定,HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。文件上传hdfs的时候,Client特文件切分成一个一个的Block,然后进行上传。迫切需要一种系统来管理多台机器上的文件,hdfs只是分布式文件管理系统中的一种。

2025-03-31 12:04:35 364

原创 分布式计算系统课堂笔记

hadoop环境搭建成功。

2025-03-24 11:04:24 464

原创 分布式计算系统hadoop实验笔记

cat:拼接,xx添加到xx里面。

2025-03-12 15:00:39 105

原创 分布式计算系统hadoop实验笔记

source ~/.bashrc:环境变量生效。docker ps -a:查看所有启动的容器。vim ~/.bashrc:编译环境变量。docker:查看启动的容器。insert模式:按i。

2025-03-12 14:59:34 127

原创 分布式计算系统第二课

HDFS: Hadoop Distributed File System,是Hadoop项。MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个子节点共同完成,然后整合各个子。简而言之,MapReduce就是“分散任务,汇总结果”1.3.1 Hadoop对Google三篇论文实现。目的核心子项目,是分布式计算中数据存储管理的基础。节点的中间结果,得到最终的计算结果。把所有的数据存入一张表。通过牺牲空间来换取时间。它是对GFS论文的实现。问题:引起数据的冗余。

2025-03-04 10:55:18 161

原创 分布式计算课程笔记

大数据的定义,Google思想一:GFS 分布式文件系统

2025-02-25 19:02:45 322

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除