大数据虚拟化之常见问题汇总1

很多网友、读者和关心我们技术的朋友通过各种渠道向我们提出一些问题,首先感谢你们。其次,我们也在考虑在积累了一些问题之后,通过问题汇总的方式告诉给更多的人。下面是我们首期的常见问题汇总栏目,希望对您有用!


提问内容答复内容
大数据都是什么数据,天天说大数据大数据主要有两个方面:一方面是数量巨大,就是海量数据,另一方面是数据类型复杂,包含非结构化数据。
Hadoop 简单的说是做什么的 ?概念是啥 ?简单说来Hadoop是用来处理大数据的计算框架,包括分布式文件系统HDFS和分布式计算引擎MapReduce。
类似阿里云?VMware重点提供的是云服务所需要的基础架构软件,国内暂不作为云服务商存在
到达什么样的量级上 才开始使用Hadoop呢?理论上10TB以上就可以考虑用Hadoop了,不过Hadoop典型的应用场景是PB级的,不过还要看数据类型,如果用户数据以非结构化为主,那么很难用以往的数据库和数据仓库来处理,这时候Hadoop就派上用场了。
我们可以试用 vSphere Big Data Extensions吗?可以。请参看博文《如何下载vSphere Big Data Extensions》 ,并按照官方指南进行。
Hadoop 后面需要一套存储么 ?Hadoop本身提供分布式文件系统HDFS,所以后面不需要特殊的存储系统,只要本地磁盘就行。
大数据解决方案适合中小企业吗?非常适合。即使企业规模小,掌握的数据价值也不能小看
大数据方案实施成本高吗?与传统的小型机、高端存储相比,大数据实施成本一般不高,使用廉价的PC服务器组成集群完成数据分析和处理流程。
VMware能否提供免费试用的大数据分析工具?VMware提供的Big Data Extensions为企业提供了大数据的分析平台。Big Data Extensions正在进行公开Beta测试,所有的vSphere的客户都可以免费试用。在此平台上,大部分使用Hadoop的分析应用都可以工作。请参看博文《如何下载vSphere Big Data Extensions》 教您如何下载
请问vmware的大数据解决方案与其他厂家的同类方案相比有什么特色和优势?我们的特色是和VMware弹性云计算资源管理相结合,能够最大程度上利用系统资源,并降低大数据管理的门槛和成本。
数据分类,先搞清楚什么是大数据,大数据分为哪些类型的数据是的,在大数据领域,我们基本分为结构化数据和非结构化数据 (有时也包括半结构化数据)。
大数据要重复数据删除吗?大数据一般用副本技术来保证数据的可靠性,所以会有一些重复数据。
你好,在国内外的教育行业有相关的实施案例嘛,部署方式是怎么样的,可以稍微介绍下嘛,还是说哪里可以查到相关的资料具体的部署取决于你的应用场景。在教育行业一个典型的应用案例是在vSphere平台上搭建大数据实验环境。在一个公用的服务器集群上,根据需要创建暂时或长期的Hadoop集群,这些Hadoop集群共享硬件,根据需要弹性伸缩,提高系统使用效率,降低投资的同时还能保证良好的隔离,包括配置隔离、安全隔离、故障隔离、和资源隔离。
在使用vSphere Big Data Extensions的时候 比如在双路E5-2620 cpu,24GB内存 的服务器上,一般能负载多少个计算节点?有相应的计算公式么?这个和虚拟化之后服务器有多少个virtual core有关,在没有CPU Over-Commitment的情况下,vcore = pcore * 2 (开启HT),然后所有计算节点的Slot数量不应超过vcore数量。不过在一般情况下,我们都会开启CPU Over-Commitment, 就是虚拟出比物理更多的核,这个比率是多少,和应用有关,需要具体调优。
在哪里可以看具体功能,我看适用我们不http://www.projectserengeti.org/ 这个网站有功能文档,您也可以关注我们的中文博客,有很多部署运维和技术细节(http://vbigdata.blog.51cto.com/
我们这里上次做的集群,服务器根盘配的太大了,一直用不上,vSphere Big Data Extensions可以在我们现有的环境解决这个问题吗? 是的,我们可以提供系统的资源利用率,把富余的服务器资源和磁盘资源分配给别额应用或别的集群使用,这是vSphere Big Data Extensions和虚拟化大数据的一大优势。
Name node的HA是使用vSphere的HA做的,还是有特殊方案? HDFS 1采用vSphere HA,HDFS 2时使用Hadoop自己的HA。
big data 通俗点讲是不是 海量数据+复杂类型的合集?从概念上说,大致是这样。大数据革命带来了两大趋势:数据存储越来越便宜,数据处理越来越灵活。
关于用户权限管理,我们可以细化到job级别吗?这块的处理全是图形化界面管理? job管理我们是依托上层的应用,比如Hadoop自己有文件级别的访问控制,以及job的权限控制。
有没有关于通信运营商成熟的案例呢?国内外的顶级通信运营商很多已经长期使用VMware的产品,包括服务器虚拟化平台,云计算平台等。这些运营商也正在和我们合作开展大数据方面的应用。
大数据主要是指非结构化数据?结构化和非结构化都包括。只不过传统的数据库对结构化数据有比较好的解决方案,而大数据解决方案可涵盖这两种类型。
能简单总结下vSphere Big Data Extensions的优势么?几个词~ 敏捷,高效,低成本。
vSphere是怎样解决Hadoop的数据安全问题的?对Hadoop数据安全性极高的用户,可以用vSphere Big Data Extensions创建单独的cluster, vSphere可以提供cluster之间的网络安全隔离。
我现在是想用刀片+存储+vmware 来解决这几个T的数据,这样的投入是不是太大了呢?还是要看应用所解决问题的价值来定。当然有了vSphere Big Data Extensions,并不限定你的硬件投资只做大数据,你还可以分时共享硬件资源。
Hadoop的安装部署,有相关的文档吗?vSphere Big Data Extensions可以直接完成Hadoop的安装部署,可以在我们网站上下载试用。请参看博文《如何下载vSphere Big Data Extensions》 教您下载
使用vSphere Big Data Extentions会不会影响到我们现有的资源池环境呢?,我们现在是vsphere5.1的环境,根盘采购的太大了,看着浪费啊 只要合理规划vSphere Big Data Extensions使用的资源池即可。
大数据的发展难题在于:大数据分析&大数据存储&大数据整合?这几个方面能分别简单讲解一下吗大数据存储目前主流的解决方案是HDFS,可以为用户提供廉价,可靠的大数据存储,并且在存储之上提供高效的数据分析平台,这个就是MAPRED。至于大数据的整合,VMware提供的解决方案是使用统一的HDFS集群整合所有的数据。同时利用虚拟机的安全隔离和资源共享机制,保证多租户访问之间性能,安全性的隔离。
能留个邮箱提供技术支持吗?

可以有多种方式联系我们:

您可以用以上的任意一种方式和我们联系,中国的产品研发团队是全球研发团队的重要组成部分。无论您用中文还是英文联系都会的到快速的支持和反馈。

请问 vmware有没有计划 提供标准的应用接口与vSphere Big Data Extensions对接 而用户无需过多的去考虑iaas层 把精力集中在应用上? 我们提供了REST API 来连接vSphere Big Data Extensions的后台完成一些IaaS管理的功能,让用户真正能集中力量在应用开发上而不是集群的管理上正是vSphere Big Data Extensions的目标,希望这款产品适合你。
我们要搭建一个10PB的cloud storage,存储一些非结构化的数据,也想用于VM的备份,企业的数据备份.VMware有成熟的解决方案吗?另外Hadoop部署在VM上IOPS会很差吧? 关于Hadopp在VM上的性能,您可参考这篇性能白皮书 http://www.vmware.com/files/pdf/vmware-virtualizing-apache-hadoop.pdf。从中可以看到,性能还是非常不错的。
关于HA的介绍,有使用到FT,这个是用在namenode上吗? jobtracker和namenode都可以配置HA/FT
vSphere Big Data Extensions是否会完全自动化部署Hadoop的环境?我们只需要部署好IAAS层即可?对,只要设置好IAAS层,再做简单配置(用来描述你需要要多少节点,每个节点配置如何),然后一键部署。
vSphere Big Data Extensions可以结合你们未来的新产品vSAN使用吗?我们vSphere Big Data Extensions团队与vSAN团队紧密的合作,让vSphere Big Data Extensions与vSAN结合使用。作为VMware的大数据解决产品,vSphere Big Data Extensions会与VMware的重要产品和功能共同工作。
问题是FT目前对多核的支持不是有限制么?那在大数据处理中不是基本不能用?FT支持单核。Hadoop中的NameNode和JobTracker一般计算压力不大,在虚拟化下配成单CPU是适合的,因此用FT保护也是合适的。
vSphere Big Data Extensions的收费模式是怎么样的? 目前vSphere企业用户不必为使用vSphere Big Data Extensions支付额外的费用。
你们支持ARM架构的server吗目前ARM在server上用户需求很少,VMware也在这方面做调研

有任何问题,可以邮件联系我们bigdata_apac@vmware.com


关于vSphereBig Data Extensions:

VMware vSphere Big Data Extensions(简称BDE)基于vSphere平台支持大数据Hadoop作业。BDE以开源Serengeti项目为基础,为企业级用户提供一系列整合的管理工具,通过在vSphere上虚拟化Hadoop,帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据部署、运行和管理工作。了解更多关于VMware vSphere Big Data Extensions的信息,请参见http://www.vmware.com/hadoop


作者简介:

091606102.png

张君迟

VMware大数据解决方案项目经理

目前负责VMware大数据解决方案的管理和市场工作。曾担任VMware数据库管理产品vFabricData Director产品经理,对虚拟化、云计算、关系型数据库和大数据等企业产品、技术方案和市场有深入的理解和实战经验。在此之前,就职于Microsoft从事分布式系统的产品管理和研发工作。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值