我是Datatist(画龙科技)的CMO董飞,首先做一个自我介绍,我毕业于南开大学,曾经在北京工作过几年。在2010年,我来到美国杜克大学读了硕士,毕业以后留在硅谷工作,一开始是在亚马逊做云计算的平台,然后去了Coursera,他们是一家做在线教育的平台,之后又在LinkedIn从事大数据架构工作。去年9月,我回国来到了上海。
我们公司的中文名是上海画龙信息科技,提到“画龙”大家也许就会想到“画龙点睛”,我们也希望我们公司的运营可以起到画龙点睛之笔。
下面进入演讲正题:
硅谷公司排名
我认为,如果把公司按规模大小来区分的话,可以分为四类:
第一类,员工数量超过10万人以上的公司;
第二类,上市企业,员工数大概在5000~50000人左右;
第三类,预备IPO公司,员工数大概1000~5000人;
第四类, 员工数大概在100~500人不等。
给大家看一些典型的公司,比如说苹果、微软、英特尔、Oracle,这些公司到目前为止也发展了40多年了,属于第一类里面。
这四家公司成立的时间都是很有特点的,他们的创始人,像乔布斯、比尔盖茨,都是同一年出生的,因此,可以说年龄跟时代的机遇是绑定在一起的。
再来看第二类公司,有谷歌、Facebook、Nvidia以及Salesforce,可能大家对于后面两个公司比较陌生。Nvidia是做显卡的,现在市值已经超过了100亿美金。可以说它也算是抓住了人工智能的风口,把GPU应用到了人工智能“三架马车”的应用当中。
而Salesforce则是做2B领域的。在国内,大家都说2B的风口来了,我个人觉得这里面的发展机会的确非常大,简单来说,Salesforce就是做SaaS版的CRM的。
接下来是Uber、Airbnb、Cloudera、Palantir。像Palantir这家公司,它是大数据领域的一个潜入者,它最新的估值已经超过了1000亿美金。其低调的原因是因为它做的是政府、金融机构的生意,所以,在隐私、技术方面会刻意保持低调,我也很少见到他们会做技术宣传的工作。Cloudera,这家公司已经成立了7、8年了,最近申请了IPO。希望它能够取得成功。
第四类的公司就有很多了,像Houzz,它的谐音是房屋的意思,它通过用户上传一些家具的照片,然后做电商的推荐工作;Stripe是做支付领域的,估值也在50亿美金以上;Wish是做跨境电商的,他的创始人也是华人,主要是跟沃尔玛和亚马逊抢生意。
这是《华尔街日报》的排名。Airbnb最近刚刚获到了33亿美元的融资,目前的估值已经达到了310亿美金。这份榜单的第一名是Uber、第二名是小米、第三名是滴滴出行、紧接着是Airbnb、Palantir,以及陆金所。在这个榜单上,中国也算是大展拳脚,前几名有多家都是中国企业。
新兴科技技术未来发展趋势
下面给大家看一张新兴科技技术最新的趋势图:
有一家市场调研公司叫Gartner,这就是他们发布的截止到2015年7月,最新的一个技术走向图。首先,可以看一下这个曲线,从一开始的井喷、爆发,然后到达一个顶点,经历一些泡沫破灭,再后面就步入成熟期了。
最最前沿的技术有哪些?智能微尘,就是把传感器做成像空气微粒那么小,然后是4D打印、通用机器智能以及情境代理。而目前又有哪些技术比较火呢?区块链、认知专业顾问、机器智能、软件定义安全、自动驾驶汽车,同时这些也是从去年到今年,国内最热门的几个话题了。后面还有一些,像自然语言问答系统、增强现实、虚拟现实,这些应该是全球技术发展的前沿。现在机器学习是最热的,其实也算是一个顶点,但它会不会变成一个泡沫呢?其实很多人也在讨论这个问题。
大数据架构
接下来进入第三部分,大数据架构。
这是一张截止到今年三月份的大数据公司分布图,到底是在基础架构层、分析层还是应用层,从上到下都可以找到自己的定位。
我今天想简单的给大家普及一些大数据技术的知识。刚才提到了“三架马车”,刚好也埋下了一个伏笔,“三驾马车”最开始是讲谷歌的,讲的是谷歌在业界大数据的领导地位,但是很可惜的是,谷歌并没有开源。很多业界的小伙伴们就开始研究,特别是雅虎这边有很多的工程师,也包括一些团队去做了类似的系统,这就是Hadoop的起源。现在的谷歌早就淘汰了第一代系统,已经到了第二代、第三代系统。
大家可能会觉得谷歌在业界至少领先了5年吧!它现在内部开发的那些系统,跟我们外部的开源还是不太一样。但是,毕竟开源也促进了信息的交流。我个人认为,可能也只是领先了一年(至少是在开源版本当中)。
Apache是一个很有生机的生态系统,这里面就会涉及到很多工具类的知识。他们搞了一个开源组,里面有形形色色,各种各样的Logo,有很多像动物似的,有河马、猪、蜜蜂跟大象的结合体,每个开源项目都有一个代号。
如果要做一个大数据的系统,这些数据平台里所需要的组件,大致都会涉及到数据存储、数据清洗,以及数据的管道跟加工的一些过程。
后面也有一系列的流程,包括数据如何分区、建立模型。其实建立模型这一块,说得简单一点,就是要把数据给规范化,变成数据库里的一些结构。把一些非结构化的,原始的类型变成一些结构化的,使其可以存储在数据库里。
在大数据的架构当中有一个算是硅谷比较流行的框架,叫Kafka,大家要关注一下。
通过上图可以看到,下面主要显示的是响应的时间,我们处理这个数据也有一定的要求。我举个例子,比如说支付宝,你付账之后必须立即确认,这个钱我有没有发出去,有没有账单。但对于微信朋友圈而言,你发了一个朋友圈之后,可以允许有几秒钟的更新时间,即使不能立刻看到也可以忍受。人们在不同的场景中对数据延迟的要求是不一样的,为了适应不同的需求,它也有不同架构的选型。
除了Hadoop之外,还有一些新兴的选型,在这里也是给大家抛砖引玉,比如说在框架里,还有实时计算的框架。
在平台级有一家是属于亚马逊旗下的,右边这张图是它基础的架构图。基本上可以通过这个架构,一方面更好的进行拓展,另外还可以做到非常快速的访问。
下面简单介绍一下Spark,它来源于Flexible实验室,这个实验室叫IMP。强调的是,它的速度是最快的,据说是Hadoop的100倍。右边的图想要说明的是如果通过Hadoop来做,需要100秒做一次迭代,但如果用Spark来做,除了第一次的磁盘读取以外,以后的迭代一次只要1秒以内。它内存的访问速度可以说高出了一个数量级。所以,本身就有一个很好的硬件基础,第一次要把数据从磁盘上读出来,这个时间是少不了的。不仅可以做到批量处理、及时查询,它还可以放在同样一个架构上去做。这也是它为什么深受欢迎的原因。
数据驱动运营
接下来向大家介绍一些关于硅谷公司数据运营方面的实战情况。
这个词叫Data-driven marketing。在我们机房里,会在屏幕上显示各种各样的报表,看起来也很震撼。硅谷的很多公司都是喜欢这么干,你去他们的办公室,至少每一层都会放两个这么大的电视,这上面也很枯燥,就是放一些数字,实时地去看用户的访问数、宕机时间以及各种服务的情况。
哥德巴赫说过一句话,我们在广告上的投资有一半是无用的,但问题是我不知道是哪一半。
这张图跟刚才那张比较类似,但是这个主要是放在营销领域的。现在比较流行什么?B2B的预测营销,这是市场营销的技术。Facebook现在为什么这么牛?他们广告端的80%以上都是来自于手机端原生态的广告,包括今日头条也是我们学习的最好的例子。
在国外,做B2B领域是很容易被收购的。除了大家熟悉的设计师用的软件之外,还有一个高收入来源,是来自于营销部门。在硅谷创业,如果是做2B领域的,其实也是很好的一个方向,你一旦做了,巨头就会盯上你,他也会采用收购的方式让你退出,其实这也是一种很好的退出手段。
这是某一个数据产品当中的报表,看起来比较枯燥。其中最核心的指标是:每天的收入、每天用户的增长量。这里面还有很多细分的东西,所以,每个组你都得制定好自己的KPI。
提到数据驱动的模式,我在这里也跟大家做一个方法论的介绍。你要是做用户运营的优化,第一步都得先去采集用户的数据。在这里是通过SDK潜入到对方的客户端当中,采集到你需要的数据,进行数据分析,再生成KPI的报表,后面你还会根据用户做多维度的分群和画像,然后进行AD测试。比如说你把促销的信息先放给A组的用户,然后做一些效果的对比,后面还会有活动的管理,与用户触达。比如说看用户有没有打开这个链接,他访问的频率到了哪一步,我们会做一些跟踪。最终的目的是为了实现ROI的提升、营销的优化。
我们公司希望通过机器学习做一些转化率的提升。时间有限,我就给大家看一个我们产品的逻辑图,
从机器学习精准拉新,到数据分析、用户画像,然后再去做一些预测,预测购买的用户,再通过机器学习的方式进行循环的优化。
机器学习在市场营销里的应用。我举一个例子,预测客户的流失,你可以通过一些算法,像逻辑回归、决策树、神经网络、支持向量机,在这里面都可以去比较他最后的效果。
最后,给大家推荐一些书籍。比如说最近比较火的《未来简史》,它的前例是《人类简史》,还有一本《智能时代》。如果想要关于技术方面的,可以看一下《SRE 谷歌的运维解密》,或者《大数据的处理技巧》,在市场营销里,有两本书值得推荐,分别是《黑客营销,像扎克伯格一样去战斗》,还有《增长黑客营销》。