HADOOP HDFS

HADOOP HDFS

1 HDFS的优缺点

优点:

– 适合大数据处理:GB 、TB 、甚至PB 级及以上的数据

– 百万规模以上的文件数量:10K+ 节点。

– 适合批处理:移动计算而非数据(MR),数据位置暴露给计算框架

– 可构建在廉价机器上

– 高可靠性:通过多副本提提高

– 高容错性:数据自动保存多个副本;副本丢失后,自动恢复,提供了恢复机制

缺点:

–低延迟高数据吞吐访问问题

•比如不支持毫秒级

•吞吐量大但有限制于其延迟

–小文件存取占用NameNode大量内存(寻道时间超过读取时间(99%))

–不支持文件修改:一个文件只能有一个写者(深入)

仅支持append不支持修改(其实本身是支持的,主要为了空间换时间,节约成本

2 HDFS架构

1547460655374

3 HDFS 数据存储模型(block)

**–**文件被线性切分成固定大小的数据块block

​ •通过偏移量offset(单位:byte)标记

•默认数据块大小为64MB (hadoop1.x),可自定义配置

•若文件大小不到64MB ,则单独存成一个block

- 一个文件存储方式

​ •按大小被切分成若干个block ,存储到不同节点上

​ •默认情况下每个block都有2个副本 共3个副本

​ •副本数不大于节点数

- Block大小和副本数通过Client端上传文件时设置,文件上传成功后副本数可以变更,Block Size大小不可变更

4 NameNode(简称NN)

– NameNode主要功能:

​ 1、接受客户端的读/写服务。

​ 2、接受DN汇报的block位置信息。

– NameNode保存metadate元信息。

​ 基于内存存储 :不会和磁盘发生交换;

​ metadate元数据信息包括以下:

•文件owership(归属)和permissions(权限)

•文件大小 时间

•Block列表[偏移量]:即一个完整文件有哪些block(b0+b1+b2+…=file)

•位置信息=Block每个副本保存在哪个DataNode中(由DataNode启动时上报给NN 因为会随时变化,不保存在磁盘)–动态的!

– NameNode的metadate信息在启动后会加载到内存

•metadata存储到磁盘文件名为”fsimage”的镜像文件

•Block的位置信息不会保存到fsimage

•edits记录对metadata的操作日志

5 SecondaryNameNode(SNN)

– 它的主要工作是帮助NN合并edits log文件,减少NN启动时间,它不是NN的备份(但可以做备份)。

– SNN执行合并时间和机制

​ •A、根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒

​ •B、根据配置文件设置edits log大小 fs.checkpoint.size 规定edits文件的最大值默认是64MB

6 SecondaryNameNode SNN合并流程

1547461482080

7 DataNode(DN)

– 存储数据(Block)

– 启动DN线程的时候会向NameNode汇报block位置信息

– 通过向NN发送心跳保持与其联系(3秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN

8 Block的副本放置策略

– 第一个副本:集群内提交,放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。

– 第二个副本:放置在于第一个副本不同的机架的节点上。

– 第三个副本:与第二个副本相同机架的不同节点。

– 更多副本:随机节点

1547461555548

9 HDFS读写流程

1 读文件过程

1547461613313

2 写 文件流程

1547461639424

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
内容介绍 项目结构: Controller层:使用Spring MVC来处理用户请求,负责将请求分发到相应的业务逻辑层,并将数据传递给视图层进行展示。Controller层通常包含控制器类,这些类通过注解如@Controller、@RequestMapping等标记,负责处理HTTP请求并返回响应。 Service层:Spring的核心部分,用于处理业务逻辑。Service层通过接口和实现类的方式,将业务逻辑与具体的实现细节分离。常见的注解有@Service和@Transactional,后者用于管理事务。 DAO层:使用MyBatis来实现数据持久化,DAO层与数据库直接交互,执行CRUD操作。MyBatis通过XML映射文件或注解的方式,将SQL语句与Java对象绑定,实现高效的数据访问。 Spring整合: Spring核心配置:包括Spring的IOC容器配置,管理Service和DAO层的Bean。配置文件通常包括applicationContext.xml或采用Java配置类。 事务管理:通过Spring的声明式事务管理,简化了事务的处理,确保数据一致性和完整性。 Spring MVC整合: 视图解析器:配置Spring MVC的视图解析器,将逻辑视图名解析为具体的JSP或其他类型的视图。 拦截器:通过配置Spring MVC的拦截器,处理请求的预处理和后处理,常用于权限验证、日志记录等功能。 MyBatis整合: 数据源配置:配置数据库连接池(如Druid或C3P0),确保应用可以高效地访问数据库。 SQL映射文件:使用MyBatis的XML文件或注解配置,将SQL语句与Java对象映射,支持复杂的查询、插入、更新和删除操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值