【编者 Peter Ye 按】
2018-01-22在微信公众号“乐生活与爱IT”上,发表《vSAN支持大数据应用吗?》后,收到了一些朋友和同事的,非常好的提问或反馈。
今天这篇文章《运营商在VMware vSAN上运行大数据应用的案例》可以视为对上一篇文章的回应。VMware不仅支持,而且还有几个国内的案例。
一、提问和答案
例如:Hadoop默认的3副本是否可以在vSAN场景中降到2,以提高容量呢? 我简单查了一下资料,并咨询了一位Hadoop领域的技术大拿。问答如下:
问:Hadoop的HDFS可以通过修改dfs.replication将默认值3,改为2或者1,或者其它值,对吗?
答:可以的,这个是修改全局的,也可以创建文件的时候指定。
问:实际使用中,有没有改成2或者1的? 什么场景改成1,或改成2?
答:这个看用户需求,如果是一些日志型数据不太重要的,可以设成1或者2,如果是存企业里一些历史数据的,默认都用3。
新的HDFS版本,有纠错码技术,可以明显降低空间的浪费
https://www.edureka.co/blog/hadoop-3/#ErasureEncoding
---
我个人觉得,如果用户为了标准化购买和方便运维和管理,将HDFS运行在vSAN上。由于当前vSAN版本尚未支持vmdk和Hadoop的虚机锁定在同一物理服务器的前提下,为了提高存储利用率,也可以考虑将HDFS的默认副本数3减小。但这个需要用户仔细评估和平衡,因为这可能会影响性能。
二、大数据应用运行在VMwarevSAN上的案例
且不论国外,在国内也已经有些用户了。
1)有一个控股集团,将其电商大数据平台,以及某行业平台的数据分析,运行在Hadoop on vSAN上;
2)有一个电信运营商,将某信令检测系统,运行在Hadoop on vSAN上;
3)还有一些政府用户,正在规划将某些应用运行在Hadoop on vSAN上;
……
4)本文正文要分享的是另一个电信运营商的案例。
需要再次提醒的是,Hadoop不是大数据的全部。当我们考虑大数据应用是否适合运行在vSAN上的时候,应该知道除了Hadoop之外,还有其他许多应用也被归在大数据项目里;即使是Hadoop,除了HDFS之外,还有MapReduce等其他组件,他们运行在vSAN上,也是不错的。即使是HDFS,虽然利用率和性能都会有所减损,但仍有少量用户希望做到:标准化购买和运维,并利用虚拟化资源池实现弹性伸缩,所以将HDFS也运行在vSAN上。
详细分析,仍然是参见上一篇文章《vSAN支持大数据应用吗?》
下面分享我的同事---程恒在电信行业做得很漂亮的一个案例,可以视为Hadoop on vSAN上的很好的实践。
---Begin---
图一:采用超融合vSAN资源池后:
1、存储资源和服务交付更快更灵活
2、业务存储需求变更更快,实时生效
3、降低IT架构复杂度,实施、配置和管理更加简单
4、存储与计算基础架构融合共享,资源利用率更高
5、存储与计算基础架构融合共享,减少硬件采购成本,节约机房空间、节能减排
图二:用户的业务需求 - 物联网Hadoop虚机