前几天我们发布了个小产品叫NDH(官宣!网易数帆自研大数据基础平台,筑牢自主可控“数字底座”),大致来说就是一个网易版的Hadoop,类似CDH,没想到引起了IT大网红飞总的深深思考(Cloudera一己之力证明的火炕,网易却毫不犹豫跳进来。。。)。飞总为了证明我们是一群聪明人,不会做Hadoop发行版这种傻生意,blahblah帮我们想了很多理由。飞总不愧是飞总,技术上一针见血(我们有Impala和Kyuubi),融资上市抬估值的逻辑更是把我唬的一愣一愣的。
借此我也谈谈我们为什么做NDH。
首先,其实NDH并不是一个全新的产品。我们内部已经做了很多年了,音乐、严选、传媒、有道等BU都大量使用,对外也卖了5年了,只不过之前都是和我们的数据开发平台一起打包卖的,这次无非是把NDH这一层独立出来。
其次,把NDH独立出来可以说是我对架构开放的偏执态度的必然结果。
我之前给有数的团队提了一个要求,产品要模块化,拆分成多个客户可以单独购买的子产品,这样客户就不会被逼着买全家桶。很多客户已经有CDH、FusionInsight,总不能逼着客户为了用我们的数据研发或数据中台又得搞一套Hadoop集群吧?所以我命令团队一定要拆。
这一拆就拆出个逻辑数据湖的概念,就是我们的数据研发和数据中台都可以架设在客户已有的CDH、FusionInsight、Vertica、Oracle甚至MySQL(对的,甚至有在MySQL上做数据中台的,这个我一开始都想不到)上实现。这样出现了一些客户用了