大数据技术原理与应用作业一

1 虚拟化
虚拟化,是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。
虚拟化是一个广义的术语,是指计算元件在虚拟而不是真实的基础上运行,是一个为了简化管理,优化资源的解决方案。在电脑运算中,虚拟化通常扮演硬件平台、操作系统(OS)、存储设备或者网络资源等角色。

2.1 云计算
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
2.2 云计算与虚拟化的关系
虚拟化是云计算的重要支撑技术。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。通过虚拟化,可以将应用程序和数据在不同层次以不同的方式展现给客户,为云计算的使用者和开发者提供便利。云计算的虚拟化过程为组织带来了灵活性,从而改善IT运维和减少成本支出。

3.1 大数据技术
所谓大数据技术,是指伴随着大数据的采集、存储、分析和应用的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。
3.2 大数据技术与云计算的关系
大数据的本质就是利用计算机集群来处理大批量的数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。云计算的本质就是将计算能力作为一种较小颗粒度的服务提供给用户,按需使用和付费,云计算的技术关注点在于如何在一套软硬件环境中,为不同的用户提供服务,使得不同的用户彼此不可见,并进行资源隔离,保障每个用户的服务质量。在大数据和云计算的关系上,两者都关注对资源的调度。大数据处理可以基于云计算平台(如IaaS,容器)。大数据处理也可以作为一种云计算的服务,如AWS的EMR(Amazon Elastic MapReduce )阿里云的ODPS(Open Data ProcessingService)。

4 云计算平台OpenStack
OpenStack是一个由NASA(美国国家航空航天局)和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。OpenStack是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。OpenStack支持几乎所有类型的云环境,项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenStack通过各种互补的服务提供了基础设施即服务(IaaS)的解决方案,每个服务提供API以进行集成。OpenStack是一个旨在为公共及私有云的建设与管理提供软件的开源项目。OpenStack实际上是一个大的调度框架,作为一种中间层存在,对不同服务器的虚拟化进行管理、调度和对接。这个框架能够为从单节点的中小企业到在全球都有数据中心的大公司提供IT基础设施。

5.1 Hadoop平台
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统和MapReduce。
5.2 Hadoop平台与OpenStack的区别
OpenStack是一套IaaS(基础设施即服务)‎软件,让任何人都可以自行建立和提供云端运算服务。Hadoop是一个开源的方案,侧重于hdfs云存储与mapreduce云数据分析等方面。

6.1 Hadoop实现HDFS
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop项目的两大核心之一,它是针对谷歌文件系统(Google File System,GFS)的开源实现。HDFS具有处理超大数据、流式处理、可以运行在廉价商用服务器上等优点。HDFS放宽了一部分POSIX(Portable Operating System Interface)约束,从而实现以流的形式访问文件系统中的数据。HDFS在访问应用程序数据时,可以具有很高的吞吐率,因此对超大数据集的应用程序而言,HDFS作为底层数据存储是比较好的选择。
6.2 Hadoop实现MapReduce
Hadoop MapReduce是针对谷歌MapReduce的开源实现。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,它将复杂、运行于大规模集群上的并行计算过程高度地抽象到了两个函数——Map和Reduce,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,并将其运行于廉价计算机集群上,完成海量数据的处理。它的核心思想就是“分而治之”,把输入的数据集切分为若干独立的数据块,分发给一个主节点管理下的各个分节点来共同并行完成;最后通过整合各个节点的中间结果得到最终结果。

©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值