自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 分布式期末复习

3、Google发表的文章:The Google File System、MapReduce .....、Bigtable.......3、一共三台虚拟机102、103、104,简述在Linux系统上安装Hadoop完全分布式模式的每台机器的主要组件及作用。HDFS:NameNode(1个)、DataNode(多个)、SecondaryNameNode(1个)YARN:ResourceManager(1个)、NodeManager(多个)2、Hadoop的可靠性:重新分配。大数据以及Hadoop相关概念。

2025-06-10 12:01:57 720

原创 YARN相关

YARN的架构是主从架构,主机为ResourceManager,从机为NodeManager,其中ResourceManager负责接收客户端的作业请求以及为作业分配相应的NodeManager资源,在NodeManager启动Container资源容器,在资源容器中运行相关作业。每个队列可以限制资源使用量。所谓的“公平”,强调的是任务按队列公平的使用YARN资源,即,队列内的任务公平使用队列中的资源。任务是按顺序执行的,哪个任务先提交,就先执行哪个任务,而且任务执行时资源利用率为100%。

2025-06-10 11:18:04 527

原创 MapReduce

作用:----->减少Mapper输出到Reduce的数据量,缓解网络传输瓶颈,提高reducer 的执行效率。需要注意的问题:一定要谨慎使用Combiner有些情况不能使用Combiner --->如:求平均值保证引入Combiner以后,不能改变原来的逻辑MapReduce作业运行机制整个过程涉及五个独立的实体:(1)客户端:提交MapReduce作业(2)YARN Resource Manager:负责协调集群上计算机资源的分配。

2025-06-09 11:52:19 42

原创 outputFormat案例

【代码】outputFormat案例。

2025-06-09 11:24:40 57

原创 hdfs写数据流程(面试重点)

7、客户端开始往DataNode1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,DataNode1收到一个Packet就会传给DataNode2,DataNode2传给DataNode3;5、客户端通过FSDataOutputStream模块请求DataNode1上传数据,DataNode1收到请求后会继续调用DataNode2,然后DataNode2调用DataNode3,将这个通信管道建立完成。如果有多个Block就会一直重复3-8步,直到所有Block上传完成。

2025-04-28 11:59:47 899

原创 【无标题】

hdfs fsck /jdk......... -files -blocks -locations(只能在namenode里面查看,datanode查看不了)hadoop fs -moveFromLocal daji.txt /youxi/wangzhetongyao(剪切)namenode存储地址 /usr/local/hadoop/tmp/dfs/name。hadoop fs -put /jdk...../...(传输)vim编辑器有三种模式:命令模式、编辑模式、末行模式。

2025-04-24 05:32:32 259

原创 实验 Hadoop安装

接下来需要配置JAVA_HOME环境变量,为了方便起见,这里直接在~/.bachrc这个文件中进行设置,采用这种配置方式时,只对当前登录的单个用户生效,当该用户登录以及每次打开新的Shell时,它的环境变量文件.bashrc会被读取。ps:不要使用 docker start master slave1 slave2 slave3并发启动多容器,使用该命令启动容器时,容器的启动先后顺序是不确定的,这可能会导致容器分配到的IP和创建容器时指定的IP不一致,导致集群无法启动。

2025-04-24 05:09:42 319

原创 hadoop配置文件,参数的优先级

参数优先级排序:(1)客户端代码中设置的值 (2)ClassPath下的用户自定义的配置文件(project下的配置文件,例如/root/IdeaProjects/hdfsClient/src/main/resources/hdfs-site.xml) (3)服务器的自定义配置文件(XXX-site.xml路径为/usr/local/hadoop/etc/hadoop) (4)服务器的默认配置(XXX-default.xml)执行如下代码的testPut1,

2025-04-22 11:29:04 384

原创 HDFS调用API

maven(版本管理)项目。

2025-04-15 22:15:06 226

原创 分布式计算课程笔记

2006年,Google发表Bigtable:A distributed Storage System for Structured Data,介绍Google的大表Bigtable的设计。2004年,Google公司发表论文MapReduce:Simplited Data Processing on Large Clusters,介绍并行计算模式MapReduce,海量数据的高效计算方法。自然语言处理NLP:文本文件,图片,音乐,二进制数据。2、Variety种类多:来源多、格式多。

2025-02-25 11:33:39 277

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除