运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析

【编者 Peter Ye 按】

2018-01-22在微信公众号“乐生活与爱IT”上,发表《vSAN支持大数据应用吗?》后,收到了一些朋友和同事的,非常好的提问或反馈。


今天这篇文章《运营商在VMware vSAN上运行大数据应用的案例》可以视为对上一篇文章的回应。VMware不仅支持,而且还有几个国内的案例。


一、提问和答案


例如:Hadoop默认的3副本是否可以在vSAN场景中降到2,以提高容量呢? 我简单查了一下资料,并咨询了一位Hadoop领域的技术大拿。问答如下:


问:Hadoop的HDFS可以通过修改dfs.replication将默认值3,改为2或者1,或者其它值,对吗?

答:可以的,这个是修改全局的,也可以创建文件的时候指定。


问:实际使用中,有没有改成2或者1的? 什么场景改成1,或改成2?

答:这个看用户需求,如果是一些日志型数据不太重要的,可以设成1或者2,如果是存企业里一些历史数据的,默认都用3。

新的HDFS版本,有纠错码技术,可以明显降低空间的浪费

https://www.edureka.co/blog/hadoop-3/#ErasureEncoding 


---


我个人觉得,如果用户为了标准化购买和方便运维和管理,将HDFS运行在vSAN上。由于当前vSAN版本尚未支持vmdk和Hadoop的虚机锁定在同一物理服务器的前提下,为了提高存储利用率,也可以考虑将HDFS的默认副本数3减小。但这个需要用户仔细评估和平衡,因为这可能会影响性能。


二、大数据应用运行在VMwarevSAN上的案例


且不论国外,在国内也已经有些用户了。

1)有一个控股集团,将其电商大数据平台,以及某行业平台的数据分析,运行在Hadoop on vSAN上;

2)有一个电信运营商,将某信令检测系统,运行在Hadoop on vSAN上;

3)还有一些政府用户,正在规划将某些应用运行在Hadoop on vSAN上;

……

4)本文正文要分享的是另一个电信运营商的案例。


需要再次提醒的是,Hadoop不是大数据的全部。当我们考虑大数据应用是否适合运行在vSAN上的时候,应该知道除了Hadoop之外,还有其他许多应用也被归在大数据项目里;即使是Hadoop,除了HDFS之外,还有MapReduce等其他组件,他们运行在vSAN上,也是不错的。即使是HDFS,虽然利用率和性能都会有所减损,但仍有少量用户希望做到:标准化购买和运维,并利用虚拟化资源池实现弹性伸缩,所以将HDFS也运行在vSAN上。 

详细分析,仍然是参见上一篇文章《vSAN支持大数据应用吗?


下面分享我的同事---程恒在电信行业做得很漂亮的一个案例,可以视为Hadoop on vSAN上的很好的实践。


---Begin---

 

图一:采用超融合vSAN资源池后:

1、存储资源和服务交付更快更灵活

2、业务存储需求变更更快,实时生效

3、降低IT架构复杂度,实施、配置和管理更加简单

4、存储与计算基础架构融合共享,资源利用率更高

5、存储与计算基础架构融合共享,减少硬件采购成本,节约机房空间、节能减排


图二:用户的业务需求 - 物联网Hadoop虚机

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值