一.数据冗余
每个文件都会有多个副本分散在不同的DataNode上,NameNode时刻监视文件的副本量,如果小于设定的值就找一台DataNode增加副本数。一般至少有3分副本才能保证数据安全,保证某个DataNode在死掉的情况下依然能提供客户端及时获取文件数据
二.写文件过程
ClientNode 是客户端程序所在的计算机,它借助某些类向HDFS系统发出请求。客户端先向NameNone发出创建文件的请求,Name Node 告诉它应该将文件放在哪个DataNode上,于是客户端连接那个DataNode,再向它发送要写的数据。DataNode收到数据后保存数据,同时将数据副本放到其他DataNode上,直到所有副本写完,才通知NameNode一次写操作完成
三.优势
一个文件在不同的DataNode上都存在,所以当客户端读取文件时可能从不同的DataNode上获取,这样也充分利用了分布式的优势,提高了并行性
四.HDFS特点
不支持随机写(指定文件位置去写入内容的操作),但支持追加内容(明显这个操作的成本要比随机写低),总之它适合的访问方式是:一次写入,多次读取
721

被折叠的 条评论
为什么被折叠?



