第一章 分布式计算的概述

第一章 分布式计算的概述

分布式计算定义

        分布式计算指在分布式系统上执行的计算。分布式计算是将一个大型计算任务分成很多部分分别交给其他的计算机处理,并将所有的计算结果合并为原问题的解决方案。这里与并行计算不同的是,并行计算是使用多个处理器并行执行单个计算。

分布式计算的优点

1、超大规模
2、 虚拟化
3、 高可靠性
4 、通用性
5 、高可伸缩性
6 、极其廉价
7、 容错性

分布式计算的缺点

1、 多故障性
2、 安全性

分布式计算的计算形式

1、单机计算:利用单台计算机(如个人计算机)进行计算。多用户也可参与单机计算。在该计算形式中,并发用户可通过分时技术共享使单台计算机中的资源,往往我们称这种计算方式为集中式计算。
2、 并行计算:用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算可分为时间上的并行和空间上的并行。
3、网络计算:把网络连接起来的各种自治资源和系统组合起来,以实现资源共享,协同工作和联合计算,为各种用户提供基于网络的各类综合性服务。
4、 网格计算:利用互联网把地理上广泛分布的各种资源(计算、存储、带宽、软件、数据、信息、知识等)连成一个逻辑整体,就像一台超级计算机一样,为用户提供一体化信息和应用服务(计算、存储、访问等) 。
5、最后将处理结果加以综合。

分布式系统概念

        分布式系统指通过网络互连,可协作执行某个任务的独立计算机集合。

经典的分布式系统与项目

1、 www:万维网
2、SETI@home:寻找外星人
3、BOINC:伯克利开放式网络计算平台

分布式系统特征

1、可靠性:指一个分布式系统在它的某一个或多个硬件的软件组件造成故障时,仍能提供服务的能力。
2、可扩展性:指一个系统为了支持持续增长的任务数量可以不断扩展的能力。
3、可用性:指一个系统尽可能地限制系统因故障而暂停的能力。
4、高效性:指一个分布式系统通过分散的计算资源来实现任务执行的高效率。

CAP理论

        源于伯克利加州大学的计算机科学家Eric Brewer在2000年的分布式计算原则研讨会(Symposium on Principles of Distributed Computing,PODC)上提出的一个猜想。它对一个分布式计算系统来说,不可能同时满足以下3点:
1、 一致性
2、可用性
3、分区容忍性

分布式计算的基础技术

        进程间通信:即在互相独立的进程(进程是程序的运行时表示)间通信及共同协作以完成某项任务的能力。
IPC程序接口的四种基本操作:
1、发送(Send):该操作由发送进程发起,旨在向接收进程传输数据。操作必须允许发送进程识别接收进程和定义待传数据。
2、接收(Receive):该操作由接收进程发起,旨在接收发送进程发来的数据操作必须允许接收进程识别发送进程和定义保存数据的内存空间,该内存随后被接收者访问。
3、连接(Connect):对面向连接的IPC,必须有允许在发起进程和指定进程间建立逻辑连击的操作:其中以进程发出请求连接操作而另一进程发出接受连接操作。
4、断开连接(Disconnect):对面向连接的IPC,该操作允许通信的双方关闭先前建立起来的某一逻辑连接。

事件同步

1、同步send和同步receive:
        如果俩个进程的应用逻辑要求在可以进行进一步的处理之前,发送的数据必须被接收到,则应当使用同步send和receive。
异步send和同步receive
        如果发送者的应用逻辑不依赖于另一端的数据接收,则可以使用异步send和同步receive。
2、同步send和异步receive:
        异步receive操作不会使发出该操作的进程阻塞,运行结果取决于IPC设施的实现。
3、异步send和异步receive:
        如果双方都没有阻塞,数据传送到接收者的唯一途径是由IPC设施保留接收到的数据,接收进程随后被通告的数据到达了。

死锁和超时

        尽管阻塞机制为IPC提供了必要的同步,但是同步操作如果按照错误的顺序执行就可能产生死锁,造成进程被无限期挂起。
对于死锁有2种解决办法。
1、使用超时机制来设置最大阻塞期限。
2、使用子进程或线程来提供阻塞操作。

事件状态图

        事件状态图可以用来记录和表示某一协议执行期间详细的事件及阻塞序列。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
⼤数据--第⼀章⼤数据概述笔记分享 ⼤数据--第⼀章 ⼤数据概述笔记分享 ⼀、⼤数据时代 1.三次信息化浪潮 信息化浪潮 信息化浪潮 发⽣时间 发⽣时间 标志 标志 解决问题 解决问题 代表企业 代表企业 第⼀次浪潮 1980年前后 个⼈计算 信息处理 Intel、AMD、IBM、苹果、微软、戴尔、惠普等 第⼆次浪潮 1995年前后 互联⽹ 信息传输 雅虎、⾕歌、阿⾥巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联⽹、云计算、⼤数据 信息爆炸 将涌现出⼀批新的市场标杆企业 2.第三次信息化浪潮的⽀持 技术⽀撑 § 存储:存储设备容量不断增加 § 计算:CPU处理能⼒⼤幅度提升 § ⽹络:⽹络带宽不断增加 数据产⽣⽅式发⽣变化 3.数据产⽣⽅式的变⾰促成⼤数据时代的来临 运营式系统阶段——数据产⽣⽅式是被动的 ⽤户原创内容阶段——数据产⽣⽅式是主动的 感知式系统阶段——⼤数据的产⽣(物联⽹、云计算和⼤数据) 物联⽹底层是感知层,如:摄像头、传感器、⼀卡通 4.⼤数据发展的三个阶段 萌芽期 成熟期 ⼤规模应⽤期 ⼆、⼤数据概念 4V特性: § 数据量⼤(Volume) § 处理速度快(Velocity) § 数据类型繁多(Variety) § 价值密度低(value) 三、⼤数据的影响 1、图灵获奖者、著名数据库专家Jim Gray博⼠观察并总结⼈类⾃古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式。 2、在思维⽅式⽅⾯,⼤数据完全颠覆了传统的思维⽅式: § 全样⽽⾮抽象 § 效率⽽⾮精确 § 相关⽽⾮因果 四、⼤数据的应⽤ 1、⼤数据⽆处不在 2、典型的⼤数据应⽤实例 1.影视剧拍摄 2.⾕歌流感趋势 五、⼤数据的关键技术 1、⼤数据的关键技术 2、⼤数据的两⼤核⼼技术 数据的存储和数据的处理 3、两⼤核⼼技术 数据的存储 数据的存储 分布式存储 分布式存储 GFS\HDFS 、Big Table\Hbase、NoSQL、NewSQL GFS\HDFS 、Big Table\Hbase、NoSQL、NewSQL 数据的处理 分布式处理 MapReduce 六、⼤数据计算模式 1、MapReuce是基于磁盘的离线计算,需要进⾏批处理,不能满⾜实时需求,它是⼀批⼀批处理的,不能实现秒级响应。Spark是基于内存的迭代计算,Spark 处理速度⽐MapReuce快。 2、批处理是对数据批量处理,流计算是实时计算。 3、图计算针对⼤规模图结构数据的处理。 4、查询分析计算是⼤规模数据的存储管理和查询分析。 七、⼤数据与云计算、物联⽹的关系 1、⼤数据、云计算和物联⽹代表了IT领域最新的计算发展趋势,三者相辅相成,既有联系⼜有区别。 2、云计算 云计算概念:云计算实现了通过⽹络与服务的⽅式为⽤户提供可伸缩的、廉价的分布式计算能⼒,⽤户只需要在具备⽹络接⼊条件的地⽅,就可以随时随地 获得所需的各种廉价的IT资源。 云计算关键技术:虚拟化、分布式存储、分布式计算、多租户等。 云计算数据中⼼是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应⽤提供运⾏⽀撑环境。 3、物联⽹ 物联⽹是物物相连的互联⽹,是互联⽹的延伸,它利⽤局部⽹络或互联⽹等通信技术把传感器、控制器、器、⼈员和物等通过新的⽅式联在⼀起,形成⼈ 与物、物与物相联,实现信息化和远程管理控制。 应⽤层:包括很多应⽤,⽐如智能交通 处理层:包括各种数据处理的应⽤,将数据处理好后传给上⼀层 ⽹络层:在物联⽹中起到数据传输的作⽤ 感知层:物联⽹的最底层 物联⽹应⽤举例——智能交通 物联⽹关键技术 物联⽹中的关键技术包括识别和感知技术(⼆维码、RFID芯⽚、传感器等)、⽹络与通信技术、数据挖掘与融合技术等。 物联⽹应⽤ 物联⽹已经⼴泛应⽤于智能交通、智慧医疗、智能家居等领域。 4、云计算、⼤数据、物联⽹三者的关系,既有区别⼜有联系

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值