并行计算是指同时使用多种计算资源解决计算机问题的过程。
云计算是分布式技术+服务化技术+资源隔离+管理技术。虚拟化技术包括:资源虚拟化,统一分配监测资源、向资源池中添加资源。
分布式产品:
Hadoop:HDFS文件系统是一个可扩缩的、容错的、可以在廉价机器上运行的分布式文件系统,是一个NameNode和多个DataNode的结构。除了提供分布式文件存储外,Hadoop还提供基于Map/Reduce的框架,进行按行的并行分析,可以用来查询和计算。
ZooKeeper是Hadoop生态体系中作为协同系统出现的,包括分布式锁,统一命名等。
Paxos:被认为是处理分布式系统消息传递一致性的最好算法。实现领导者选举
启动ZK服务器集群环境后,多个ZK服务器在工作前会选举出一个Leader,若在接下来的工作中这个Leader死了,剩下的ZK被通知,并重新选举,目的是保证数据的一致性。
另外,ZK支持观察的概念,客户端可以在每个znode节点设置一个watch,如果观察的及节点有变更,那么watch就会触发,这个watch所属的客户端将接到一个通知,断开连接时同样也会,也就是说一个ZK服务器可以服务多个客户端。当然也可以多对多。
HBase:需要一个面向键/值的列存储数据库,并可以支持水平扩充。
分布式并行计算模式
HDFS:1、文件量相对不大,文件中间的内容不可以篡改,只能添加到尾部。2、只能对文件进行创建、删除、重命名、修改属性等操作。有数据块、复制因子两个概念。
Hadoop的基础计算框架MapReduce:前提是数据节点之间有高速的网络连接。尽量把数据储存在计算节点上。
1、map映射,把一个