openstack私有云_将OpenStack私有云部署到Hadoop MapReduce环境

当组织在企业中同时利用云计算和大数据技术时,考虑结合使用这些工具是明智的。 通过这样做,企业可以利用私有云的快速弹性和单一租期达到最佳的分析处理能力水平。 本文可帮助您了解什么是云计算和大数据技术,什么是私有云,什么是Apache Hadoop,它们之间的协同作用,如何部署这些技术以及它们所面临的挑战。

私有云计算入门

私有云是企业内部的内部云计算部署,组织在其中利用了数据中心内部云计算技术的细微差别。 这些细微差别包括快速弹性,资源池,按需置备和自动化管理。 为了在内部合并所有这些属性,大多数组织使用开源云分发,例如OpenStack或CloudStack。

OpenStack是最流行的开源云发行版,包括控制器,计算(Nova),存储(Swift),消息传递队列(RabbitMQ)和网络(Quantum)组件。 图1提供了这些组件的示意图(没有Quantum网络组件)。

图1. OpenStack发行版的组件
OpenStack发行版的组件

这些组件绑定在一起,以提供一个允许动态配置计算和存储资源的环境。 从硬件的角度来看,这些服务分布在许多虚拟和物理服务器上。 例如,大多数组织将一台物理服务器部署为控制器节点,将另一台物理服务器部署为计算节点。 许多组织也选择将其存储环境解析到专用的物理服务器上,这在OpenStack部署的情况下将意味着为Swift存储环境使用单独的服务器。

大数据入门

Oracle将大数据定义为来自三个来源的数据集合:传统(结构化数据),感官(日志数据,元数据)和社交(社交媒体)。 大数据通常使用新技术范例进行存储,例如非关系,分布式数据库(如NoSQL)。 非关系数据库管理系统(NRDBMS)有四种类型:基于列,键值,图形和基于文档。 这些NRDBMS聚合源数据,而分析程序(例如MapReduce)则分析聚合的信息。

传统的大数据环境包括分析程序,数据存储,可伸缩文件系统,工作流管理器,分布式排序和哈希解决方案以及数据流编程框架。 经常用于商业应用程序的数据流编程框架是结构化查询语言(SQL),而对于开源发行版,它是SQL的替代形式,例如Hadoop的Apache Pig。 在商业方面,Cloudera提供了更稳定和全面的解决方案之一,而Apache Hadoop是开源Hadoop发行版中最流行的。

由于您可以使用多种组件,因此通常使用Apache Hadoop发行版,其中包括Hadoop分布式文件系统(HDFS-可伸缩文件系统),HBase(数据库/数据存储),Pig,Hadoop(分析)和MapReduce(分布式排序和哈希)。 如图2所示,Hadoop任务分为多个节点,而MapReduce任务分为多个跟踪器。

图2. HDFS / MapReduce层组成
该图显示了HDFS / MapReduce层的组成

图3显示了MapReduce如何执行其工作,即在呈现排序和散列的输出之前,通过接受输入并执行一组split,sort和merge动作。

图3.高级MapReduce图
高级MapReduce图

图4展示了一个更复杂的MapReduce作业及其组件。

图4. MapReduce数据流程图
MapReduce数据流程图

尽管比传统的分析环境(例如IBM®Cognos®和Satori proCube在线分析处理)更为复杂,但Hadoop MapReduce部署具有可扩展性和成本效益。

汇集全部

大数据和私有云环境本身就很有用; 但是,当它们结合在一起时,组织所能获得的利益是巨大的。 尽管环境会很复杂,但企业通过将OpenStack私有云与Apache Hadoop环境结合起来,将看到巨大的协同作用。 下一节将介绍组织如何集成私有云和大数据技术。

Swift,Apache Hadoop和MapReduce

私有云环境中大数据的常见部署模型是将OpenStack的Swift存储技术部署到Apache Hadoop MapReduce集群中进行处理。 使用这种体系结构的优势在于,组织将拥有一个可扩展的存储节点来处理其不断海量的数据。 根据IDC,年度数据增长率为60%; 因此,该解决方案将解决不断增长的数据带来的挑战,同时允许组织同时启动部署私有云的试验。

此部署模型最适合希望通过存储池试行私有云,同时使用内部大数据技术的组织。 最佳实践要求您首先将大数据技术部署到生产数据仓库环境中,然后构建并配置私有云存储解决方案。 当您将Apache Hadoop MapReduce技术成功加入数据仓库环境,并且私有云存储池已构建并正常工作时,您可以将私有云存储数据与计划的Hadoop MapReduce环境集成。

Swift,Cloudera的Apache Hadoop发行版

对于那些不愿从头开始使用大数据的组织,Cloudera等解决方案提供商提供了大数据设备。 Cloudera的包含Apache Hadoop(CDH)解决方案的发行版使组织可以不必在Hadoop的每一个细微差别上进行采购或培训,因此从大数据的角度来看,这可能会带来更高的投资回报率(ROI)。 对于那些没有大数据或私有云技能的组织,他们希望将这种技术缓慢且迭代地整合到他们的产品组合中,这条路线特别有吸引力。

大数据和云计算是许多组织为了节省成本而希望采用的相对较新的技术。 但是,他们不愿全面接受这些新技术。 通过利用其供应商支持的大数据软件发行版,这些组织将安心无忧,同时学习如何利用该技术来发挥自己的优势。 此外,如果将这项投资用于分析可以由私有云存储节点最佳管理的大型数据集,则企业可能会看到更高的利用率。 为了最好地将此策略整合到企业中,请首先安装,配置和管理CDH,以分析组织的数据仓库环境,然后将存储在Swift中的数据添加到服务器中。

Swift,Nova和Apache Hadoop MapReduce

对于那些在大数据环境中寻求更高级别的灵活性,可扩展性和自治性的组织,他们可以利用Apache和OpenStack提供的开源产品的本机功能。 为此,企业需要最大程度地利用这两种技术堆栈,与上述解决方案示例中所提到的相比,这反过来要求设计这种环境的思路不同。

要拥有完全可扩展且灵活的大数据环境,它必须在同时提供存储和计算节点的私有云环境中运行。 为此,组织必须首先构建私有云,然后将大数据添加到方程式中。 因此,在这一点上,肯定需要Swift,Nova和RabbitMQ以及用于管理和维护环境的控制器节点。 但是,问题是组织是否需要针对不同的系统(例如,非大数据虚拟机或来宾实例),业务部门和部门划分此环境的各个部分。 如果公司要全面利用私有云,则应将Quantum添加到从网络角度对不同环境进行细分的等式中(图5)。

图5. OpenStack体系结构
该图显示了OpenStack体系结构

设置和测试私有云环境后,将Apache Hadoop组件合并到其中。 为此,Nova实例可用于容纳NoSQL或SQL数据存储(是的,它们可以共存)以及Pig和MapReduce实例。 Hadoop可以在单独的非Nova机器上进行处理。 希望在不久的将来,Hadoop将能够在Nova实例上运行,从而使私有云在所有Nova实例上独立。

GFS,Nova,Pig和MapReduce

从体系结构的角度来看,除了将OpenStack的Swift用于可伸缩存储之外,还有其他选择。 本示例使用带有Nova和Apache Hadoop组件(特别是Pig和MapReduce)的Google文件系统(GFS)。 该示例使组织可以专注于开发仅用于计算处理的私有云计算节点,同时利用Google的公共存储云作为数据存储。 借助这种混合云,组织可以专注于计算处理的核心能力,而第三方则专注于存储。 该模型可以利用其他提供商的存储解决方案,例如Amazon Simple Storage Service; 但是在使用任何外部存储之前,组织应该在内部使用可扩展文件系统(XFS)构建该解决方案,并在将其扩展到公共云之前对其进行正确的测试。 此外,根据数据的敏感性,企业可能希望使用数据保护机制,例如混淆,去匿名,加密或散列。

技巧和窍门

将云计算和大数据整合到企业中时,在每个技术平台中建立员工的技能至关重要。 当您的员工了解这些技术时,请建立一个实验室来测试将这些平台结合在一起。 由于存在许多不同的组件,因此请务必遵循上面突出显示的经过验证的实施路线。 此外,如果公司在尝试加入这些范例时遇到任何障碍,请在尝试了一定次数后转到另一种选择。 替代方案的示例包括设备和混合云。

路障和地雷

由于这些技术是相对较新的技术,因此大多数组织都希望在实现大量资本支出(CapEx)之前先用现有资源对其进行测试。 但是,如果没有适当的预算和人员来将这些技术吸收到企业中,那么试点和测试可能会令人失望。 另外,如果没有完整的私有云部署,组织应该首先将大数据实施到企业中,然后再实施私有云。

最后,组织必须为其私有云和大数据计划制定战略路线图。 成功的部署将导致许多额外的分析“工作”需求,这些工作可能会妨碍处理。 要补救此风险,应使用迭代项目管理方法,通过分阶段部署到业务部门和部门将这些技术推广到企业。

结论

云计算和大数据已经来临,您的组织应该确定这些技术如何使公司受益,例如从CapEx角度节省成本或增强处理能力。 您的企业应该独立测试这些系统,然后通过迭代部署将它们吸收到企业中。 这样,公司可以看到可观的投资回报,为组织的未来做好准备。


翻译自: https://www.ibm.com/developerworks/cloud/library/cl-openstack-deployhadoop/index.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值