![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop权威指南
LUK流
大数据/java web
展开
-
hdfs基础知识整理
(1)HDFS为什么会块那么大?其目的是减少寻址的开销(2)HDFS的块抽象带来的好处1.文件中所有的块并不需要存储在同一个磁盘中,因此他可以利用任意一个磁盘进行存储,一个大文件就可以拆分成很多个小文件存放在不同的磁盘中。2.大大简化了存储子系统的设计,很容易就可以计算出块的个数,元数据大小不一不方便fsImage的管理。3.如果一个块不可用了,马上可以从相关的文件中复制过去,对用...原创 2018-11-12 23:30:41 · 584 阅读 · 0 评论 -
mapreduce之combiner函数
一个例子说明combiner的作用:hadoop允许用户针对map任务输出指定一个combiner,combiner函数的输出作为reduce的输入(1)假设第一个map的输出如下:(1950,0)//1950表示年份,0表示地方A的最高温度(1950,20)(1950,10)(2)假设第二个map的输出如下:(1950,25)//1950表示年份,0表示地方A的最高温度(1950,...原创 2018-11-15 22:22:24 · 499 阅读 · 0 评论 -
YARN基础知识
(1)YARN作为分布式计算(1)YARN(集群计算层)运行在存储层上(如:HDFS和HBase)(2)应用层(如:mapreduce,spark等)都运行在Compute层(YARN)上未完待续...原创 2018-11-16 18:15:16 · 487 阅读 · 0 评论 -
Hadoop的IO处理
1.HDFS数据完整性HDFS会写入所有数据的计算校验和,并对正在读取的数据进行校验,默认校验方式是RCR-32。不只是读写数据时会进行校验,datanode也会在后台线程中运行DataBlockScanner进行校验,定期检查数据的缺失情况。客户端读写数据时,发现数据损坏了,向namenode汇报,抛出ChecksumException,namenode将该datanode上的数据转移到其...原创 2019-04-09 15:38:14 · 567 阅读 · 0 评论