Hadoop
文章平均质量分 87
一位小白的学习记录,如若有不正确的地方,希望大家能够指正俺,谢谢大家(●‘◡‘●)
摇篮里的小樱桃
菜鸟,加油!
展开
-
HDFS 命令
假设有一个文件块,一共三个副本,s1,s2,s3,datanode会向namenode发送协调报告,namenode会检查元数据信息(demo.log有1块,分别有三个副本b0-s1,b0-s2,b0-s3),等到datanode进行心跳响应时,namenode会进行校验,如果一台节点宕机,那么只收到两台节点汇报,相当于丢了一个副本的信息,此时namenode就会进入安全模式,把丢失的副本给其他服务器拷贝一份。三个副本放在一台节点上相当于覆盖,存的时候只有一块。原创 2023-12-25 11:47:12 · 473 阅读 · 1 评论 -
MapReduce
单机计算,需要使用cpu和内存(cpu核数包括内存的容量是有限的),如果要计算一个大文件,就会要很长的时间,比如说一个小时,所以提出了个概念,叫分布式计算(一台干不了的事情分成多台干,计算集群,),这个文件就需要分布式存储,问题是将来要对这个文件进行计算,计算任务需要启动到哪一台集群上,并行处理的话可能20分钟就计算完了,提高了计算的时间,另外一个问题,所有的及其已经处理完了各自的数据,那么处理完的结果如何汇总,如果引入到分布式来运行的话,是增加了程序的复杂度的,且开发难度也增加了。原创 2023-12-12 22:49:20 · 74 阅读 · 0 评论