Hadoop分布式架构及NoSQL

本文介绍了Hadoop的分布式架构,包括HDFS、MapReduce和ZooKeeper,阐述了ZooKeeper的选举机制和数据一致性。同时,讨论了HBase作为NoSQL数据库的特点,如分布式、稀疏性和多维度排序。此外,提到了Hadoop生态系统中的其他组件如YARN、Pig和Mahout。最后,探讨了分布式系统中的CAP原理和NoSQL数据库的意义。
摘要由CSDN通过智能技术生成

并行计算是指同时使用多种计算资源解决计算机问题的过程。

云计算是分布式技术+服务化技术+资源隔离+管理技术。虚拟化技术包括:资源虚拟化,统一分配监测资源、向资源池中添加资源。

分布式产品:

Hadoop:HDFS文件系统是一个可扩缩的、容错的、可以在廉价机器上运行的分布式文件系统,是一个NameNode和多个DataNode的结构。除了提供分布式文件存储外,Hadoop还提供基于Map/Reduce的框架,进行按行的并行分析,可以用来查询和计算。

ZooKeeper是Hadoop生态体系中作为协同系统出现的,包括分布式锁,统一命名等。

Paxos:被认为是处理分布式系统消息传递一致性的最好算法。实现领导者选举

启动ZK服务器集群环境后,多个ZK服务器在工作前会选举出一个Leader,若在接下来的工作中这个Leader死了,剩下的ZK被通知,并重新选举,目的是保证数据的一致性。

另外,ZK支持观察的概念,客户端可以在每个znode节点设置一个watch,如果观察的及节点有变更,那么watch就会触发,这个watch所属的客户端将接到一个通知,断开连接时同样也会,也就是说一个ZK服务器可以服务多个客户端。当然也可以多对多。

HBase:需要一个面向键/值的列存储数据库,并可以支持水平扩充。

分布式并行计算模式

HDFS:1、文件量相对不大,文件中间的内容不可以篡改,只能添加到尾部。2、只能对文件进行创建、删除、重命名、修改属性等操作。有数据块、复制因子两个概念。

Hadoop的基础计算框架MapReduce:前提是数据节点之间有高速的网络连接。尽量把数据储存在计算节点上。

1、map映射,把一个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值