在win10下配置hadoop时 jdk的安装路径一定不能有空格。也就是不能安装在program files下
另外就是hadoop有些cmd命令不能用需要重新下载一个。下载好全部覆盖到bin文件即可。
下载地址:http://download.csdn.NET/detail/kokjuis/9706480
可参考http://blog.csdn.net/kokjuis/article/details/53537029 非常详细。
----------------
RAID:reduntant array of indenpendent disks ,独立磁盘冗余阵列。
普通磁盘的吞吐量100-150m/s
RAID-0由2个硬盘组成,可提供吞吐量,两个磁盘串联,数据打撒存储,缺点是一块算坏,另一块数据也无法读取。
RAID-1由2个硬盘组成,是实时镜像。两个硬盘记录相同的数据,缺点是磁盘浪费较多。
RAID-5 由3个硬盘组成,,同样是打撒存储,原始数据分别存储在一个硬盘,和另一个硬盘上,奇偶校验数据存储在剩余的一个硬盘上。每个数据的三部分在三个硬盘的存储是随机的,原始数据的一个硬盘算坏可以用奇偶校验数据和另一个硬盘数据进行恢复。
RAID-10由4个硬盘组成,先用RAID-1,在用RAID-0。
NameNode节点推荐使用RAID,DataNode不用需要,已经在不能节点上存储副本。
NameNode只对元数据的增删做日志记录,NameNode存放的都是路径。打开文件删除文件文件重命名,对于目录本上的操作都会被记录到日志中,对于数据的操作不做日志。DataNode故障时,负责创建更多的副本。
NameNode要维护两张表,第一个namespace(路径)--》block(硬盘存储)。第二个是维护block--》datanode(主机)不会存储在硬盘上(内存存储),每次nanenode还要从新重构block datanode的关系。datanode启动的时候会告知namdenode自身的情况。
namenode会周期想接收数据节点的情况(所有数据block),namenode负责副本的创建。
hadoop的副本存储是跨机架的,为了避免1在一个机架,2,3在另外以及机架,为了避免1停电,影响到2.
block是指hadoop文件存储的单位,v1是64m,v2是128m