- 博客(10)
- 收藏
- 关注
原创 分布式期末复习
3、Google发表的文章:The Google File System、MapReduce .....、Bigtable.......3、一共三台虚拟机102、103、104,简述在Linux系统上安装Hadoop完全分布式模式的每台机器的主要组件及作用。HDFS:NameNode(1个)、DataNode(多个)、SecondaryNameNode(1个)YARN:ResourceManager(1个)、NodeManager(多个)2、Hadoop的可靠性:重新分配。大数据以及Hadoop相关概念。
2025-06-10 12:01:57
720
原创 YARN相关
YARN的架构是主从架构,主机为ResourceManager,从机为NodeManager,其中ResourceManager负责接收客户端的作业请求以及为作业分配相应的NodeManager资源,在NodeManager启动Container资源容器,在资源容器中运行相关作业。每个队列可以限制资源使用量。所谓的“公平”,强调的是任务按队列公平的使用YARN资源,即,队列内的任务公平使用队列中的资源。任务是按顺序执行的,哪个任务先提交,就先执行哪个任务,而且任务执行时资源利用率为100%。
2025-06-10 11:18:04
527
原创 MapReduce
作用:----->减少Mapper输出到Reduce的数据量,缓解网络传输瓶颈,提高reducer 的执行效率。需要注意的问题:一定要谨慎使用Combiner有些情况不能使用Combiner --->如:求平均值保证引入Combiner以后,不能改变原来的逻辑MapReduce作业运行机制整个过程涉及五个独立的实体:(1)客户端:提交MapReduce作业(2)YARN Resource Manager:负责协调集群上计算机资源的分配。
2025-06-09 11:52:19
42
原创 hdfs写数据流程(面试重点)
7、客户端开始往DataNode1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,DataNode1收到一个Packet就会传给DataNode2,DataNode2传给DataNode3;5、客户端通过FSDataOutputStream模块请求DataNode1上传数据,DataNode1收到请求后会继续调用DataNode2,然后DataNode2调用DataNode3,将这个通信管道建立完成。如果有多个Block就会一直重复3-8步,直到所有Block上传完成。
2025-04-28 11:59:47
899
原创 【无标题】
hdfs fsck /jdk......... -files -blocks -locations(只能在namenode里面查看,datanode查看不了)hadoop fs -moveFromLocal daji.txt /youxi/wangzhetongyao(剪切)namenode存储地址 /usr/local/hadoop/tmp/dfs/name。hadoop fs -put /jdk...../...(传输)vim编辑器有三种模式:命令模式、编辑模式、末行模式。
2025-04-24 05:32:32
259
原创 实验 Hadoop安装
接下来需要配置JAVA_HOME环境变量,为了方便起见,这里直接在~/.bachrc这个文件中进行设置,采用这种配置方式时,只对当前登录的单个用户生效,当该用户登录以及每次打开新的Shell时,它的环境变量文件.bashrc会被读取。ps:不要使用 docker start master slave1 slave2 slave3并发启动多容器,使用该命令启动容器时,容器的启动先后顺序是不确定的,这可能会导致容器分配到的IP和创建容器时指定的IP不一致,导致集群无法启动。
2025-04-24 05:09:42
319
原创 hadoop配置文件,参数的优先级
参数优先级排序:(1)客户端代码中设置的值 (2)ClassPath下的用户自定义的配置文件(project下的配置文件,例如/root/IdeaProjects/hdfsClient/src/main/resources/hdfs-site.xml) (3)服务器的自定义配置文件(XXX-site.xml路径为/usr/local/hadoop/etc/hadoop) (4)服务器的默认配置(XXX-default.xml)执行如下代码的testPut1,
2025-04-22 11:29:04
384
原创 分布式计算课程笔记
2006年,Google发表Bigtable:A distributed Storage System for Structured Data,介绍Google的大表Bigtable的设计。2004年,Google公司发表论文MapReduce:Simplited Data Processing on Large Clusters,介绍并行计算模式MapReduce,海量数据的高效计算方法。自然语言处理NLP:文本文件,图片,音乐,二进制数据。2、Variety种类多:来源多、格式多。
2025-02-25 11:33:39
277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅