第一章
大数据一般是指数量达到10T以上的数据,且具有4V特性。
Google三大思想
Google思想一:GFS
管理节点管理存放数据的主机,存放数据的主机叫数据节点,上传的数据按数据的大小进行分块,数据块冗余度默认为3。文件元信息保存在管理节点。
服务器由Master主节点(主人,管理节点)和多个ChunkSever(存储节点)组成,ChunkSever是实际数据存储的位置
Google思想二:MapReduce
Google思想三:BigTable
思想是:把所有的数据存入一张表,牺牲空间换取时间,虽然造成数据冗余但提高系统性能
Tablet:n片剂,药片,平板电脑,匾,碑
Hadoop小节
HDFS对GFS的实现
机架感知与副本位置选择策略在第三章细讲。
***Hadoop的MapReduce实现Google的MapReduce***在第五章重点讲解
HBase实现BigTable
问题
1.GFS是用于存储的,而BigTable是数据库也是用于存储的,那么它们之间有什么联系和区别呢?
HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。
HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统。
2.edits文件与fsimage文件,哪个文件夹体现了HDFS的最新状态?
HDFS镜像文件fsimage和编辑日志文件edits