笔记而已仅供参考。
数据: tb级别 pb级别
速度: 持续事实产生诗句
多样化: 半结构化,非结构化,多为数据
价值: 数据挖掘。预测分析(统计报表)
可以构建在廉价机器上
人口密度分析
hadoop的子项目
Core 分布式文件系统的计算框架
HDFS hadoop的分布式文件系统
Map/Reduce 数据处理框架
zooKeeper 分布式协同系统
pig
Hive 分布式数据仓库(HiveSQL)
HBase 可扩展的数据库系统
。。。
HDFS:
可靠性:因为创建了多个副本放在不同节点,并且加快读取性能。
NameNode: 储存元数据(文件名称,大小,权限。。。),映射关系,存放在内存
DataNode:保存文件内容,在磁盘中
一个名字节点多个数据节点
数据复制(冗余机制)
空间回收机制
缺点: 低延迟数据访问,比如毫秒级别的延迟低的,不适合用hdfs
大量的小文件不适合(文件越多元数据越大)
并发写入和随机修改,一个文件只能有一个写者(不适合修改)
存储单元是block
文件被切分成固定代销的数据块
数据块默认大小为64MB(逻辑大小,并不会实际占用磁盘大小)
一个文件被切分成若干个block存储到不同的节点上
默认情况下每个bock都有三个副本
Namenode保存元数据信息包括Block保存在哪个DATANode中(启动时上报)
元数据存储的磁盘文件名为“fsimage”
edits记录对元数据的操作日志(每隔一段时间合并数据操作,类似于关系型数据库的事务)