大数据
大数据的定义如下:海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。
经典案例:啤酒与尿布、谷歌与流感等。
大数据具有以下的特征,即4V+1C:
1、数据量大(Volume):存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。下面是存储单位的换算公式:
1EB=1024PB=260字节
1PB=1024TB=250字节
1TB=1024GB=240字节
1GB=1024MB=230字节
1MB=1024KB=220字节
1KB=1024B=210字节
2、多样(Variety):数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。而随着人类活动的进一步拓宽,数据的来源更加多样。
3、快速(Velocity):数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。
4、价值密度低(Value):需要对大量的数据进行处理,挖掘其潜在的价值。大数据明确要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体系架构。
5、复杂度(Complexity):对数据的处理和分析的难度。
云计算
1.什么是云计算?
云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单地说,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒钟)完成对数以万计的数据的处理,从而达到强大的网络服务。现阶段所说的云服务已经不单单是一种分布式计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
“云”实质上就是一个网络,狭义上讲,云计算就是一种提供资源的网络,使用者可以随时获取“云”上的资源,按需求量使用,并且可以看成是无限扩展的,只要按使用量付费就可以,“云”就像自来水厂一样,我们可以随时接水,并且不限量,按照自己家的用水量,付费给自来水厂就可以。
从广义上说,云计算是与信息技术、软件、互联网相关的一种服务,这种计算资源共享池叫做“云”,云计算把许多计算资源集合起来,通过软件实现自动化管理,只需要很少的人参与,就能让资源被快速提供。也就是说,计算能力作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,且价格较为低廉。
总之,云计算不是一种全新的网络技术,而是一种全新的网络应用概念,云计算的核心概念就是以互联网为中心,在网站上提供快速且安全的云计算服务与数据存储,让每一个使用互联网的人都可以使用网络上的庞大计算资源与数据中心。云计算是继互联网、计算机后在信息时代有一种新的革新,云计算是信息时代的一个大飞跃,未来的时代可能是云计算的时代,虽然目前有关云计算的定义有很多,但总体上来说,云计算虽然有许多得含义,但概括来说,云计算的基本含义是一致的,即云计算具有很强的扩展性和需要性,可以为用户提供一种全新的体验,云计算的核心是可以将很多的计算机资源协调在一起,因此,使用户通过网络就可以获取到无限的资源,同时获取的资源不受时间和空间的限制。
2.云计算的主要特点有哪些?
云计算的可贵之处在于高灵活性、可扩展性和高性比等,与传统的网络应用模式相比,其具有如下优势与特点:
(1)虚拟化技术
必须强调的是,虚拟化突破了时间、空间的界限,是云计算最为显著的特点,虚拟化技术包括应用虚拟和资源虚拟两种。众所周知,物理平台与应用部署的环境在空间上是没有任何联系的,正是通过虚拟平台对相应终端操作完成数据备份、迁移和扩展等。
(2)动态可扩展
云计算具有高效的运算能力,在原有服务器基础上增加云计算功能能够使计算速度迅速提高,最终实现动态扩展虚拟化的层次达到对应用进行扩展的目的。
(3)按需部署
计算机包含了许多应用、程序软件等,不同的应用对应的数据资源库不同,所以用户运行不同的应用需要较强的计算能力对资源进行部署,而云计算平台能够根据用户的需求快速配备计算能力及资源。
(4)灵活性高
目前市场上大多数IT资源、软、硬件都支持虚拟化,比如存储网络、操作系统和开发软、硬件等。虚拟化要素统一放在云系统资源虚拟池当中进行管理,可见云计算的兼容性非常强,不仅可以兼容低配置机器、不同厂商的硬件产品,还能够外设获得更高性能计算。
(5)可靠性高
倘若服务器故障也不影响计算与应用的正常运行。因为单点服务器出现故障可以通过虚拟化技术将分布在不同物理服务器上面的应用进行恢复或利用动态扩展功能部署新的服务器进行计算。
(6)性价比高
将资源放在虚拟资源池中统一管理在一定程度上优化了物理资源,用户不再需要昂贵、存储空间大的主机,可以选择相对廉价的PC组成云,一方面减少费用,另一方面计算性能不逊于大型主机。
(7)可扩展性
用户可以利用应用软件的快速部署条件来更为简单快捷的将自身所需的已有业务以及新业务进行扩展。如,计算机云计算系统中出现设备的故障,对于用户来说,无论是在计算机层面上,亦或是在具体运用上均不会受到阻碍,可以利用计算机云计算具有的动态扩展功能来对其他服务器开展有效扩展。这样一来就能够确保任务得以有序完成。在对虚拟化资源进行动态扩展的情况下,同时能够高效扩展应用,提高计算机云计算的操作水平。
3.云计算的关键技术有哪些?
(1)体系结构
实现计算机云计算需要创造一定的环境与条件,尤其是体系结构必须具备以下关键特征。第一,要求系统必须智能化,具有自治能力,减少人工作业的前提下实现自动化处理平台智地响应要求,因此云系统应内嵌有自动化技术;第二,面对变化信号或需求信号云系统要有敏捷的反应能力,所以对云计算的架构有一定的敏捷要求。与此同时,随着服务级别和增长速度的快速变化,云计算同样面临巨大挑战,而内嵌集群化技术与虚拟化技术能够应付此类变化。
云计算平台的体系结构由用户界面、服务目录、管理系统、部署工具、监控和服务器集群组成:
a.用户界面。主要用于云用户传递信息,是双方互动的界面。
b.服务目录。顾名思义是提供用户选择的列表。
c.管理系统。指的是主要对应用价值较高的资源进行管理。
d.部署工具。能够根据用户请求对资源进行有效地部署与匹配。
e.监控。主要对云系统上的资源进行管理与控制并制定措施。
f.服务器集群。服务器集群包括虚拟服务器与物理服务器,隶属管理系统。
g.资源监控
云系统上的资源数据十分庞大,同时资源信息更新速度快,想要精准、可靠的动态信息需要有效途径确保信息的快捷性。而云系统能够为动态信息进行有效部署,同时兼备资源监控功能,有利于对资源的负载、使用情况进行管理。其次,资源监控作为资源管理的“血液”,对整体系统性能起关键作用,一旦系统资源监管不到位,信息缺乏可靠性那么其他子系统引用了错误的信息,必然对系统资源的分配造成不利影响。因此贯彻落实资源监控工作刻不容缓。资源监控过程中,只要在各个云服务器上部署Agent代理程序便可进行配置与监管活动,比如通过一个监视服务器连接各个云资源服务器,然后以周期为单位将资源的使用情况发送至数据库,由监视服务器综合数据库有效信息对所有资源进行分析,评估资源的可用性,最大限度提高资源信息的有效性。
(3)自动化部署
科学进步的发展倾向于半自动化操作,实现了出厂即用或简易安装使用。基本上计算资源的可用状态也发生转变,逐渐向自动化部署。对云资源进行自动化部署指的是基于脚本调节的基础上实现不同厂商对于设备工具的自动配置,用以减少人机交互比例、提高应变效率,避免超负荷人工操作等现象的发生,最终推进智能部署进程。自动化部署主要指的是通过自动安装与部署来实现计算资源由原始状态变成可用状态。其于与计算中表现为能够划分、部署与安装虚拟资源池中的资源为能够给用户提供各类应用于服务的过程,包括了存储、网络、软件以及硬件等。系统资源的部署步骤较多,自动化部署主要是利用脚本调用来自动配置、部署与配置各个厂商设备管理工具,保证在实际调用环节能够采取静默的方式来实现,避免了繁杂的人际交互,让部署过程不再依赖人工操作。除此之外,数据模型与工作流引擎是自动化部署管理工具的重要部分,不容小觑。一般情况下,对于数据模型的管理就是将具体的软硬件定义在数据模型当中即可;而工作流引擎指的是触发、调用工作流,以提高智能化部署为目的,善于将不同的脚本流程在较为集中与重复使用率高的工作流数据库当中应用,有利于减轻服务器工作量。
虚拟化技术
描述
虚拟化一般分为硬件级虚拟化(hardware-level-virtualization)和操作系统级虚拟化(os-level-virtualization) 。硬件级虚拟化是运行在硬件之上的虚拟化技术, 它的管理软件也就是我们通常说的hypervisor 或者 virtual machine monitor, 它需要模拟的就是一个完整的操作系统,也就是我们通常所说的基于 Hyper-V 的虚拟化技术,VMWare, Xen, VirtualBox,
亚马逊 AWS 和阿里云都是用的这种技术。操作系统级虚拟化是运行在操作系统之上的,它模拟的是运行在操作系统上的多个不同进程,并将其封装在一个密闭的容器里面,也称为容器化技术。Docker 正是容器虚拟化中目前最流行的一种实现。
优势和劣势
1.虚拟化技术的优点:
2.集中化管理
3.动态调整机器/资源配置
4.高可靠性
5.减低总体成本
6.降低终端设备数量
虚拟化技术的缺点:
1.前期高额的费用
2.降低硬件利用率
3.更大的错误影响面
4.实施配置复杂,管理复杂
5.一定的限制性
6.安全性
分类
在《Xen Virtualization》中,作者将虚拟化分为如下类别:
1.应用虚拟化
2.桌面虚拟化
3.网络虚拟化
4.服务器虚拟化
5.存储虚拟化
6.操作系统虚拟化
服务器虚拟化也分为多种:
1.客户系统虚拟化
2.并行虚拟化
3.基于虚拟机管理器的虚拟化
4.全虚拟化
5.内核级虚拟化
6.硬件虚拟化
常见虚拟化软件
常用的有VMware(VMware workstation(适合单台计算机使用)、VMware vsphere(VMware esxi )、VMware Fusion(Mac)) , Oracle VM VirtualBox,Xenserver;还有Microsoft Hyper-V、KVM、华为Fusion Sphere等。
数据中心
数据中心的概念
数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。
数据中心的组成部分
机房(建筑物本身)、供配电系统、制冷系统、网络设备、服务器设备、存储设备等。
发展历程
巨型机时代
具有很强的计算和处理数据的能力,主要特点表现为高速度和大容量,配有多种外部和外围设备及丰富的、bai高功能的软件系统。 在一定时期内速度最快、性能最高、体积最大、耗资最多的计算机系统。
数据中心的基本单元----服务器
塔式服务器
塔式服务器的机箱比较大,服务器的配置也可以很高,冗余扩展更可以很齐备,所以它的应用范围非常广,应该说目前使用率最高的一种服务器就是塔式服务器,通用服务器一般都是塔式服务器
机架式服务器
在有限的空间内部署更多的服务器直接关系到企业的服务成本,通常选用机械尺寸符合19英寸工业标准的机架式服务器。机架式服务器也有多种规格,例如1U(4.445cm高)、2U、4U、6U、8U等。通常1U的机架式服务器最节省空间,但性能和可扩展性较差,适合一些业务相对固定的使用领域。4U以上的产品性能较高,可扩展性好,一般支持4个以上的高性能处理器和大量的标准热插拔部件。管理也十分方便,厂商通常提供人相应的管理和监控工具,适合大访问量的关键应用,但体积较大,空间利用率不高。