2301_82333233-CSDN博客

原创分布式期末复习

3、Google发表的文章：The Google File System、MapReduce .....、Bigtable.......3、一共三台虚拟机102、103、104，简述在Linux系统上安装Hadoop完全分布式模式的每台机器的主要组件及作用。HDFS：NameNode（1个）、DataNode（多个）、SecondaryNameNode（1个）YARN：ResourceManager（1个）、NodeManager（多个）2、Hadoop的可靠性：重新分配。大数据以及Hadoop相关概念。

2025-06-10 12:01:57 720

原创 YARN相关

YARN的架构是主从架构，主机为ResourceManager，从机为NodeManager，其中ResourceManager负责接收客户端的作业请求以及为作业分配相应的NodeManager资源，在NodeManager启动Container资源容器，在资源容器中运行相关作业。每个队列可以限制资源使用量。所谓的“公平”，强调的是任务按队列公平的使用YARN资源，即，队列内的任务公平使用队列中的资源。任务是按顺序执行的，哪个任务先提交，就先执行哪个任务，而且任务执行时资源利用率为100%。

2025-06-10 11:18:04 527

原创 MapReduce

作用：----->减少Mapper输出到Reduce的数据量，缓解网络传输瓶颈，提高reducer 的执行效率。需要注意的问题：一定要谨慎使用Combiner有些情况不能使用Combiner --->如：求平均值保证引入Combiner以后，不能改变原来的逻辑MapReduce作业运行机制整个过程涉及五个独立的实体：（1）客户端：提交MapReduce作业（2）YARN Resource Manager：负责协调集群上计算机资源的分配。

2025-06-09 11:52:19 42

原创 outputFormat案例

【代码】outputFormat案例。

2025-06-09 11:24:40 57

原创 hdfs写数据流程（面试重点）

7、客户端开始往DataNode1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，DataNode1收到一个Packet就会传给DataNode2，DataNode2传给DataNode3；5、客户端通过FSDataOutputStream模块请求DataNode1上传数据，DataNode1收到请求后会继续调用DataNode2，然后DataNode2调用DataNode3，将这个通信管道建立完成。如果有多个Block就会一直重复3-8步，直到所有Block上传完成。

2025-04-28 11:59:47 899

原创【无标题】

hdfs fsck /jdk......... -files -blocks -locations（只能在namenode里面查看，datanode查看不了)hadoop fs -moveFromLocal daji.txt /youxi/wangzhetongyao(剪切)namenode存储地址 /usr/local/hadoop/tmp/dfs/name。hadoop fs -put /jdk...../...(传输)vim编辑器有三种模式：命令模式、编辑模式、末行模式。

2025-04-24 05:32:32 259

原创实验 Hadoop安装

接下来需要配置JAVA_HOME环境变量，为了方便起见，这里直接在~/.bachrc这个文件中进行设置，采用这种配置方式时，只对当前登录的单个用户生效，当该用户登录以及每次打开新的Shell时，它的环境变量文件.bashrc会被读取。ps：不要使用 docker start master slave1 slave2 slave3并发启动多容器，使用该命令启动容器时，容器的启动先后顺序是不确定的，这可能会导致容器分配到的IP和创建容器时指定的IP不一致，导致集群无法启动。

2025-04-24 05:09:42 319

原创 hadoop配置文件，参数的优先级

参数优先级排序：（1）客户端代码中设置的值（2）ClassPath下的用户自定义的配置文件（project下的配置文件，例如/root/IdeaProjects/hdfsClient/src/main/resources/hdfs-site.xml）（3）服务器的自定义配置文件（XXX-site.xml路径为/usr/local/hadoop/etc/hadoop）（4）服务器的默认配置（XXX-default.xml）执行如下代码的testPut1，

2025-04-22 11:29:04 384

原创 HDFS调用API

maven（版本管理）项目。

2025-04-15 22:15:06 226

原创分布式计算课程笔记

2006年，Google发表Bigtable：A distributed Storage System for Structured Data，介绍Google的大表Bigtable的设计。2004年，Google公司发表论文MapReduce：Simplited Data Processing on Large Clusters，介绍并行计算模式MapReduce，海量数据的高效计算方法。自然语言处理NLP：文本文件，图片，音乐，二进制数据。2、Variety种类多：来源多、格式多。

2025-02-25 11:33:39 277

2301_82333233的博客