云计算、雾计算

最新推荐文章于 2024-04-14 22:45:39 发布

R.adish

最新推荐文章于 2024-04-14 22:45:39 发布

阅读量1.2k

点赞数 22

文章标签：云计算

本文链接：https://blog.csdn.net/m0_46699339/article/details/134904575

版权

阅读论文里涉及了云计算、雾计算的概念，遂学习记录。（非原创）

一、云计算

云计算最初的目标是对资源的管理，管理的主要是计算资源、网络资源、存储资源三个方面。

计算资源：如电脑CPU、内存
网络资源：如通过插网线、或者可以连接路由器的无线网卡上网
存储资源：如电脑硬盘多大

对于一台电脑是这个样子的，对于一个数据中心也是同样的。想象你有一个非常非常大的机房，里面堆了很多的服务器，这些服务器也是有CPU、内存、硬盘的，也是通过类似路由器的设备上网的。这时的问题就是：运营数据中心的人是怎么把这些设备统一的管理起来的呢？

1.灵活性（弹性）

时间灵活性：想什么时候要就什么时候要，需要的时候一点就出来了
空间灵活性：想要多少就有多少。需要一台很小的电脑，可以满足；需要一个特别大的空间例如云盘，云盘给每个人分配的空间动不动就很大很大，随时上传随时有空间，永远用不完，也是可以满足的。
虚拟化：虚拟化的技术使得不同客户的电脑看起来是隔离的。也就是我看着好像这块盘就是我的，你看着这块盘就是你的，但实际情况可能我的这个10G和你的这个10G是落在同样一个很大很大的存储上。而且如果事先物理设备都准备好，虚拟化软件虚拟出一个电脑是非常快的，基本上几分钟就能解决。所以在任何一个云上要创建一台电脑，一点几分钟就出来了，就是这个道理。解决了灵活性的问题。

2.虚拟化的半自动和云计算的全自动

因为虚拟化软件一般创建一台虚拟的电脑，是需要人工指定这台虚拟电脑放在哪台物理机上的。这一过程可能还需要比较复杂的人工配置。所以仅仅凭虚拟化软件所能管理的物理机的集群规模都不是特别大，一般在十几台、几十台、最多百台这么一个规模。

所以随着集群的规模越来越大，基本都是千台起步，动辄上万台、甚至几十上百万台。如果去查一下BAT，包括网易、谷歌、亚马逊，服务器数目都大的吓人。这么多机器要靠人去选一个位置放这台虚拟化的电脑并做相应的配置，几乎是不可能的事情，还是需要机器去做这个事情。

人们发明了各种各样的算法来做这个事情，算法的名字叫做调度(Scheduler)。通俗一点说，就是有一个调度中心，几千台机器都在一个池子里面，无论用户需要多少CPU、内存、硬盘的虚拟电脑，调度中心会自动在大池子里面找一个能够满足用户需求的地方，把虚拟电脑启动起来做好配置，用户就直接能用了。这个阶段我们称为池化或者云化。到了这个阶段，才可以称为云计算，在这之前都只能叫虚拟化。

3.云计算的共有与私有

云计算大致分两种：一个是私有云，一个是公有云。

私有云：把虚拟化和云化的这套软件部署在别人的数据中心里面。使用私有云的用户往往很有钱，自己买地建机房、自己买服务器，然后让云厂商部署在自己这里。VMware后来除了虚拟化，也推出了云计算的产品，并且在私有云市场赚的盆满钵满。
公有云：把虚拟化和云化软件部署在云厂商自己数据中心里面的，用户不需要很大的投入，只要注册一个账号，就能在一个网页上点一下创建一台虚拟电脑。例如AWS即亚马逊的公有云；例如国内的阿里云、腾讯云、网易云等。

OpenStack已经成为开源云平台的事实标准。

4.laaS（Infranstracture As A Service）

每个用户云盘都分配了5T甚至更大的空间，如果有1亿人，那加起来空间多大啊。

其实背后的机制是这样的：分配你的空间，你可能只用了其中很少一点，比如说它分配给你了5个T，这么大的空间仅仅是你看到的，而不是真的就给你了，你其实只用了50个G，则真实给你的就是50个G，随着你文件的不断上传，分给你的空间会越来越多。

当大家都上传，云平台发现快满了的时候(例如用了70%)，会采购更多的服务器，扩充背后的资源，这个对用户是不透明的、看不到的。从感觉上来讲，就实现了云计算的弹性。

到了这个阶段，云计算基本上实现了时间灵活性和空间灵活性；实现了计算、网络、存储资源的弹性。计算、网络、存储我们常称为基础设施Infranstracture, 因而这个阶段的弹性称为资源层面的弹性。管理资源的云平台，我们称为基础设施服务，也就是我们常听到的IaaS（Infranstracture As A Service）。

实现了资源层面的弹性，还有应用层面的弹性。

1、PaaS（Platform As A Service）

自己的应用自动安装：比如电商应用是你自己开发的，除了你自己，其他人是不知道怎么安装的。像电商应用，安装时需要配置支付宝或者微信的账号，才能使别人在你的电商上买东西时，付的钱是打到你的账户里面的，除了你，谁也不知道。所以安装的过程平台帮不了忙，但能够帮你做得自动化，你需要做一些工作，将自己的配置信息融入到自动化的安装过程中方可。比如上面的例子，双十一新创建出来的90台机器是空的，如果能够提供一个工具，能够自动在这新的90台机器上将电商应用安装好，就能够实现应用层面的真正弹性。例如Puppet、Chef、Ansible、Cloud Foundary都可以干这件事情，最新的容器技术Docker能更好的干这件事情。

通用的应用不用安装：所谓通用的应用，一般指一些复杂性比较高，但大家都在用的，例如数据库。几乎所有的应用都会用数据库，但数据库软件是标准的，虽然安装和维护比较复杂，但无论谁安装都是一样。这样的应用可以变成标准的PaaS层的应用放在云平台的界面上。当用户需要一个数据库时，一点就出来了，用户就可以直接用了。有人问，既然谁安装都一个样，那我自己来好了，不需要花钱在云平台上买。当然不是，数据库是一个非常难的东西，光Oracle这家公司，靠数据库就能赚这么多钱。买Oracle也是要花很多钱的。

2.容器 Container

虽说脚本的方式能够解决自己的应用的部署问题，然而不同的环境千差万别，一个脚本往往在一个环境上运行正确，到另一个环境就不正确了。容器能更好地解决这个问题。Container另一个意思是集装箱，其实容器的思想就是要变成软件交付的集装箱。集装箱的特点：一是封装，二是标准。

那么容器如何对应用打包呢？还是要学习集装箱。首先要有个封闭的环境，将货物封装起来，让货物之间互不干扰、互相隔离，这样装货卸货才方便。好在 Ubuntu中的LXC技术早就能做到这一点。

封闭的环境主要使用了两种技术，一种是看起来是隔离的技术，称为 Namespace，也即每个 Namespace中的应用看到的是不同的 IP地址、用户空间、程号等。另一种是用起来是隔离的技术，称为 Cgroups，也即明明整台机器有很多的 CPU、内存，而一个应用只能用其中的一部分。

所谓的镜像，就是将你焊好集装箱的那一刻，将集装箱的状态保存下来，就像孙悟空说：“定”，集装箱里面就定在了那一刻，然后将这一刻的状态保存成一系列文件。这些文件的格式是标准的，谁看到这些文件都能还原当时定住的那个时刻。将镜像还原成运行时的过程（就是读取镜像文件，还原那个时刻的过程）就是容器运行的过程。

大数据与云计算

1、大数据里面的数据类型，一种叫结构化的数据，一种叫非结构化的数据，还有一种叫半结构化的数据。

结构化的数据：即有固定格式和有限长度的数据。例如填的表格就是结构化的数据，国籍：中华人民共和国，民族：汉，性别：男，这都叫结构化数据。
非结构化的数据：现在非结构化的数据越来越多，就是不定长、无固定格式的数据，例如网页，有时候非常长，有时候几句话就没了；例如语音，视频都是非结构化的数据。
半结构化数据：是一些XML或者HTML的格式的，不从事技术的可能不了解，但也没有关系。

例如你每天跑步带个手环收集的也是数据，网上这么多网页也是数据，我们称为Data。数据本身没有什么用处，但数据里面包含一个很重要的东西，叫做信息（Information）。数据十分杂乱，经过梳理和清洗，才能够称为信息。信息会包含很多规律，我们需要从信息中将规律总结出来，称为知识（Knowledge），而知识改变命运。有了知识，然后利用这些知识去应用于实战，有的人会做得非常好，这个东西叫做智慧（Intelligence）。

所以数据的应用分这四个步骤：数据、信息、知识、智慧。

2、数据处理的步骤

第一个步骤叫数据的收集。首先得有数据，数据的收集有两个方式：

第一个方式是拿，专业点的说法叫抓取或者爬取。例如搜索引擎就是这么做的：它把网上的所有的信息都下载到它的数据中心，然后你一搜才能搜出来。比如你去搜索的时候，结果会是一个列表，这个列表为什么会在搜索引擎的公司里面？就是因为他把数据都拿下来了，但是你一点链接，点出来这个网站就不在搜索引擎它们公司了。比如说新浪有个新闻，你拿百度搜出来，你不点的时候，那一页在百度数据中心，一点出来的网页就是在新浪的数据中心了。
第二个方式是推送，有很多终端可以帮我收集数据。比如说小米手环，可以将你每天跑步的数据，心跳的数据，睡眠的数据都上传到数据中心里面。

第二个步骤是数据的传输。一般会通过队列方式进行，因为数据量实在是太大了，数据必须经过处理才会有用。可系统处理不过来，只好排好队，慢慢处理。

第三个步骤是数据的存储。现在数据就是金钱，掌握了数据就相当于掌握了钱。要不然网站怎么知道你想买什么？就是因为它有你历史的交易的数据，这个信息可不能给别人，十分宝贵，所以需要存储下来。

第四个步骤是数据的处理和分析。上面存储的数据是原始数据，原始数据多是杂乱无章的，有很多垃圾数据在里面，因而需要清洗和过滤，得到一些高质量的数据。对于高质量的数据，就可以进行分析，从而对数据进行分类，或者发现数据之间的相互关系，得到知识。

第五个步骤是对于数据的检索和挖掘。检索就是搜索，所谓外事不决问Google，内事不决问百度。内外两大搜索引擎都是将分析后的数据放入搜索引擎，因此人们想寻找信息的时候，一搜就有了。另外就是挖掘，仅仅搜索出来已经不能满足人们的要求了，还需要从信息中挖掘出相互的关系。

所以说什么叫做大数据？说白了就是一台机器干不完，大家一起干。可是随着数据量越来越大，很多不大的公司都需要处理相当多的数据，这些小公司没有这么多机器可怎么办呢？说到这里，大家想起云计算了吧。当想要干这些活时，需要很多的机器一块做，真的是想什么时候要就什么时候要，想要多少就要多少。

3.大数据需要云计算，云计算需要大数据

例如大数据分析公司的财务情况，可能一周分析一次，如果要把这一百台机器或者一千台机器都在那放着，一周用一次非常浪费。那能不能需要计算的时候，把这一千台机器拿出来；不算的时候，让这一千台机器去干别的事情？

谁能做这个事儿呢？只有云计算，可以为大数据的运算提供资源层的灵活性。而云计算也会部署大数据放到它的PaaS平台上，作为一个非常非常重要的通用应用。因为大数据平台能够使得多台机器一起干一个事儿，这个东西不是一般人能开发出来的，也不是一般人玩得转的。

所以说就像数据库一样，其实还是需要有一帮专业的人来玩这个东西。现在公有云上基本上都会有大数据的解决方案了，一个小公司需要大数据平台的时候，不需要采购一千台机器，只要到公有云上一点，这一千台机器都出来了，并且上面已经部署好了的大数据平台，只要把数据放进去算就可以了。

云计算需要大数据，大数据需要云计算，二者就这样结合了。

人工智能与云计算

人工智能可以做的事情非常多，例如可以鉴别垃圾邮件、鉴别黄色暴力文字和图片等。这也是经历了三个阶段的：

第一个阶段依赖于关键词黑白名单和过滤技术，包含哪些词就是黄色或者暴力的文字。随着这个网络语言越来越多，词也不断地变化，不断地更新这个词库就有点顾不过来。
第二个阶段时，基于一些新的算法，比如说贝叶斯过滤等，你不用管贝叶斯算法是什么，但是这个名字你应该听过，这个一个基于概率的算法。
第三个阶段就是基于大数据和人工智能，进行更加精准的用户画像和文本理解和图像理解。

由于人工智能算法多是依赖于大量的数据的，这些数据往往需要面向某个特定的领域(例如电商，邮箱)进行长期的积累，如果没有数据，就算有人工智能算法也白搭，所以人工智能程序很少像前面的IaaS和PaaS一样，将人工智能程序给某个客户安装一套，让客户去用。因为给某个客户单独安装一套，客户没有相关的数据做训练，结果往往是很差的。

但云计算厂商往往是积累了大量数据的，于是就在云计算厂商里面安装一套，暴露一个服务接口，比如您想鉴别一个文本是不是涉及黄色和暴力，直接用这个在线服务就可以了。这种形势的服务，在云计算里面称为软件即服务，SaaS (Software AS A Service)

于是工智能程序作为SaaS平台进入了云计算。

二、雾计算

雾计算（Fog Computing）：
可理解为本地化的云计算，是云计算的延伸概念这个因“云”而“雾”的命名源自“雾是更贴近地面的云”这一名句。
在该模式中数据、（数据）处理和应用程序集中在网络边缘的设备中，而不是几乎全部保存在云中。雾计算并非由性能强大的服务器组成，而是由性能较弱、更为分散的各类功能计算机组成，渗入工厂、汽车、电器、街灯及人们物质生活中的各类用品。

在终端和数据中心之间再加一层，叫网络边缘层。如再加一个带有存储器的小服务器或路由器，把一些并不需要放到“云”的数据在这一层直接处理和存储，以减少“云”的压力，提高了效率，也提升了传输速率，减低了时延，这个工作原理其实就可以理解为：雾计算

其实谈雾计算，不如谈边缘计算更加贴切。

云是分布式技术的大规模应用，计算能力强，规模大，集中开发成本低，解决了企业非常大的IT问题。但云不能干所有的事，比如自动驾驶，对当下路况的判断，需要微秒级的处理和时延，这些计算如果放到云端来做，网络稍有问题，就错过了时机。所以，这些环节的计算处理，要放在本地物联网终端或者基站甚至CDN节点上来做。

如果说CDN是弥补TCP/IP本地化缓存问题，那么雾计算就是弥补云计算本地化计算问题！

雾计算 VS 云计算有以下几个明显的特点：

更轻压：计算资源有限相比较云平台的构成单位——数据中心，雾节点更加轻！雾计算能够过滤，如聚合用户消息（如不停发送的传感器消息），只将必要消息发送给云，减小核心网络压力

更低层：雾节点在网络拓扑中位置更低，拥有更小的网络延迟（总延迟=网络延迟计算延迟），反应性更强

更可靠：雾节点拥有广泛的地域分布，为了服务不同区域用户，相同的服务会被部署在各个区域的雾节点上，使得高可靠性成为雾计算的内在属性，一旦某一区域的服务异常，用户请求可以快速转向其他临近区域，获取相关的服务。此外，由于使用雾计算后，相较云计算减少了发送到云端和从云端发送的数据量，和云计算相比延迟更短，安全风险也得到了进一步的降低！

更低延：除了物联网的应用外，网上游戏、视频传输、AR等也都需要极低的时延，这点雾计算也是有所发挥的

更灵便：雾计算支持很高的移动性，手机和其他移动设备可以互相之间直接通信，信号不必到云端甚至基站去绕一圈！此外，雾计算也支持实时互动、多样化的软硬件设备以及云端在线分析等

更节能：雾计算节点由于地理位置分散，不会集中产生大量热量，因此不需要额外的冷却系统，从而减少耗电，雾计算更省电！

雾计算以及边缘计算、海计算而言等等的出现，不是用来代替云计算，更多的是对云计算“bug类”问题的修修补补，本质上是作为云计算的延伸拓展而诞生的产品和理念。