1.HDFS是个啥
1.hdfs是一个文件系统,用来存储文件的,说白了就是一个存储器,而且它是一个分布式的,就好像把一堆乒乓球(数据)放在不同的盒子里,所以他有很多服务器,每个服务器都有自己的角色,比如一个箱子存储蓝色乒乓球,一个箱子存储红色的诸如此类.但它不支持修改,就好比你把乒乓球放进去了就不能再改变它的颜色了,所以它适合一次读入多次读出,不适合做网盘。
2.HDFS优缺点
1.具有高容错性,数据自动保存多个副本,通过增加副本形式,提高容错性,某一个副本丢失后,可以自动恢复
2.适合处理大量的数据
3.可以构建在廉价的机器上,通过副本提高可靠性
11.缺点:不是设低延时的数据访问,访问速度慢
22.无法对大量小文件进行处理因为每次操作都要给namenodes上报但namenodes缓存有限
33.一个文件只能由一个ip写不能多个线程同时写,而且不支持修改,这也是为啥不能做网盘。
3.HDFS组成架构
该图来自于尚硅谷教程的课件
为什么块的大小不能太小也不能太大???
1.如果太小那么地址和文件会很冗杂不好找。
2.如果太大从磁盘传到hdfs时间将会明显大于定位这个块的时间,导致处理数据非常慢