Hadoop自学指南

笔记而已仅供参考。

 

数据: tb级别  pb级别

速度: 持续事实产生诗句

多样化: 半结构化,非结构化,多为数据

价值: 数据挖掘。预测分析(统计报表)

可以构建在廉价机器上

 

人口密度分析 

 

hadoop的子项目

  Core 分布式文件系统的计算框架

  HDFS hadoop的分布式文件系统

  Map/Reduce 数据处理框架

 zooKeeper 分布式协同系统

 pig   

 Hive  分布式数据仓库(HiveSQL)

 HBase 可扩展的数据库系统

  。。。

 

 

HDFS:

   可靠性:因为创建了多个副本放在不同节点,并且加快读取性能。

   NameNode: 储存元数据(文件名称,大小,权限。。。),映射关系,存放在内存

   DataNode:保存文件内容,在磁盘中

   一个名字节点多个数据节点

 数据复制(冗余机制)

 空间回收机制

 

 

缺点: 低延迟数据访问,比如毫秒级别的延迟低的,不适合用hdfs

 大量的小文件不适合(文件越多元数据越大)

 并发写入和随机修改,一个文件只能有一个写者(不适合修改)

 存储单元是block 

 文件被切分成固定代销的数据块

数据块默认大小为64MB(逻辑大小,并不会实际占用磁盘大小)

一个文件被切分成若干个block存储到不同的节点上

默认情况下每个bock都有三个副本

 

Namenode保存元数据信息包括Block保存在哪个DATANode中(启动时上报)

 

元数据存储的磁盘文件名为“fsimage”

edits记录对元数据的操作日志(每隔一段时间合并数据操作,类似于关系型数据库的事务)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值