HDFS硬盘分布式解决互联网时代存储之所需

HDFS硬盘分布式解决互联网时代存储之所需

互联网一直是人类进步的催化剂,尤其是移动互联网发展得极快,公司网站的用户量暴增,访问量也水涨船高,日志量也很感人,每小时都能产生好几个G,随着数据量越来越大,在一台机器上已经无法存储所有的数据了,那我们会将这些数据分配到不同的机器来进行存储,但是这就带来一个问题:不方便管理和维护。

所以,我们就希望有一个系统可以将这些分布在不同操作服务器上的数据进行统一管理,这就有了分布式文件系统。

分布式存储

分布式存储是伴随着区块链的概念应运而生,主要通过去中心化的方式来存储、提取、检索数据。世界各地存在大量未使用的存储空间,主要由各种实体拥有,大型企业、小型家族企业、地下室有巨大硬盘机架的个人,以及每个人笔记本电脑中的小型硬盘,这些资源空间都可以用来存储。但是,由于种种障碍限制,使得这些存储空间很难被拿出来使用和共享。通过去中心化、分布式存储就可以充分挖掘闲余的存储市场,提高整个存储网络的应用效率。

HDFS是分布式文件系统的其中一种(目前用得最广泛的一种)

HDFS分布式存储本质是通过点对点传输的分布式存储传输协议,它是通过利用全球上千万个节点提供的闲置硬盘存储空间用于数据存储,将一条完整的数据链进行分片处理,再将分片数据保存在一定比例的节点中,具有可无限拓展的数据存储能力。

在这里插入图片描述

HDFS亮点有哪些?

通讯协议,安全隐秘

所有的节点都是主动点对点P2P,融合区块链特性和机制。

P2P是一种分布式网络,网络的参与者共享他们所拥有的一部分硬件资源(处理能力、存储能力、网络连接能力、 打印机等),这些共享资源需要由网络提供服务和内容,能被其它对等节点(peer)直接访问而无需经过中间实体。 在此网络中的参与者既是资源(服务和内容)提供者(server),又是资源(服务和内容)获取者(client) RPC(Remote Procedure Call)抽象地封装了Client Protocol和DataNode Protocol协议。按照设计, 名字节点不会主动发起一个RPC,它只是被动地对数据节点和客户端发起的RPC作出反馈。

数据正确性

从数据节点上取一个文件块有可能是坏块,坏块的出现可能是存储设备错误,网络错误或者软件的漏洞。 HDFS客户端实现了HDFS文件内容的校验。 当一个客户端创建一个HDFS文件时, 它会为每一个文件块计算一个校验码并将校验码存储在同一个HDFS命名空间下一个单独的隐藏文件中。 当客户端访问这个文件时, 它根据对应的校验文件来验证从数据节点接收到的数据。 如果校验失败,客户端可以选择从其他拥有该块副本的数据节点获取这个块。

HDFS采用N+3的存储机制:

作为分布式网络,HDFS的用户数据被打散分布在不同的节点之上,采用N+3的数据备份机制,一份数据至少同时存在3个不同的节点之上,数据的安全性是较云盘体系提升300%以上。

分布式网络不仅仅是在机制上完全领先目前的网盘体系,在用户体验上也实现了反超,一改以往对区块链使用体验差的印象。因为采用了分布式存储的原理,用户的个人数据的上传、下载都享受多线程同步传输带来的全新体验。

以上就是本片文章的全部内容,更多详细信息敬请关注。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值