2015 年1月28日讲座《董老师开课啦》走进斯坦福,聊聊硅谷创业公司和大数据的事儿。本文根据演讲实录节选
董飞,知乎达人,分享过《哪些硅谷创业公司能给拜访者留下深刻印象》,《美国大数据工程师面试攻略》,《Coursera 上有哪些课程值得推荐》引起强烈反响,受到社交圈广泛转载。讲座提纲:硅谷IT公司领域分类, 大数据相关技术,应用场合和相关公司列表. 从面试者角度分析:求职技巧和面试准备
华尔街网站给出的最新创业公司融资规模图。黑色表示2010年后成立的。截至到2015年1月17日,规模跟去年比已经发生了很大的变化。首先估值在10Billlon的达到了7家,而一年前一家都没有。第二第一名是中国人家喻户晓的小米,美团也是在上升渠道很猛。第三,前20名中,绝大多数(8成在美国,在加州,在硅谷,在旧金山!)比如Uber, Airbnb, Dropbox, Pinterest. 第四 里面也有不少相似模式成功的,比如Flipkart就是印度市场的淘宝,Uber与Airbnb都是共享经济的范畴。所以大家还是可以在移动(Uber),大数据(Palantir),消费级互联网,通讯(Snapchat),支付(Square),O2O App里面寻找下大机会。
在Linkedin,它每年评选一个最有需求的创业公司名单,基本上结合Linkedin用户访问量,申请数做出的挖掘。我这里列出了最近3年,大家可以做个判别和趋势分析,里面还是很大靠谱的,比如不少上榜名单已经成功IPO(GoPro. Hortonworks, Splunk),里面有很多大数据领域公司(Splunk, Box, Nimble Storage, Violin Memroy, Dropbox)除了之前看到的一些互联网项目,在一些医疗健康(theranos),智能硬件(leap motion, fitbit, Jawbone),在线教育(Coursera),也吸引了很大注意力。
未来趋势是什么?大家都很关心。我先提计算机逻辑的奠基者艾伦图灵(计算机届最高奖以他命名),他的一个伟大贡献就是在人工智能的开拓工作,他提出图灵测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已经有了很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。在Google资深科学家吴军博士(数学之美,浪潮之巅作者),他提出当前技术发展三个趋势,第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没有意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没有太形成规模。他认为未来机器会控制98%的人,而现在我们就要做个选择,怎么成为剩下的2%?
这张曲线图是信息时代的增长,其实在工业革命之前(1820年),世界人均GDP在1800年前的两三千年里基本没有变化,而从1820年到2001年的180年里,世界人均GDP从原来的667美元增长到6049美元。这里面发生了什么,大家可以去思考一下。但人类的进步并没有停止或者说稳步增长,在发明了电力,电脑,互联网,移动互联网,全球年GDP增长 从万分之5到2%。信息也是在急剧增长,最近10年是远超人类所有之前累计信息量之和。在计算机时代,有个著名的摩尔定律,同样成本每隔18个月晶体管数量会翻倍,这个规律已经很好的match了最近30年的发展,可以衍生到很多类似的领域:存储,功耗,带宽,像素。而下面这个是冯诺伊曼,20世纪最重要的数学家之一,在现代计算机、博弈论和核武器等诸多领域内有杰出建树的最伟大的科学全才之一。他提出著名的奇点理论。美国未来学家Ray Kurzweil称人类能够在2045年实现数字化永生,他自己创办奇点大学,相信随着信息技术、无线网、生物、物理等领域的指数级增长,将在2029年实现人工智能,人的寿命也将会在未来15年得到大幅延长。
大数据的用途,所谓学以致用,大数据领域在各个行业都可以应用,这里举出几个有趣的例子,在Linkedin的时候,CEO提出经济图谱的概念,希望整合用户,公司,工作机会,技能,学校,帖子变成一个复杂而有蕴含无限可能的数字化社会。找对象,有个国外的极客,他抓取了dating网站的数据,根据有些指标如地理,年龄,兴趣,建立下面的3D模型找到真爱;例如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。在移动App上,今日头条通过你的个人社会化信息,建立起兴趣图谱推荐文章并且随着你的使用会越来越聪明;在线教育领域:MOOC中的M就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到1.3亿美金的融资。硅谷有家Wealthfront做大数据理财,23andMe提供个人基因组的“大数据“。等等
除了大数据,从另一个微观角度如何看小,这就像相对论和量子力学,Google院士Jeff Dean给出了一些非常基本,但也是学计算机需要掌握的数字。在计算机体系结构里有个局部性原理(Locality)越往上的就越快,当然代价就是非常珍贵,从寄存器到CPU L2 Cache, 从内存到Flash到磁盘到网络,从连续读到随机读,它们的速率都是相差数量级的。还有个著名法则8020,就是说80%的访问都是20%的数据或者资源,所以我们要解决主要问题,局部性原理也是类似,最近访问的数据就是会被频繁使用,需要做好Cache。
首先看Hadoop从哪里开始的,不得不提Google的先进性,在10多年前,Google出了3篇paper论述分布式系统的做法,分别是GFS, MapReduce, BigTable,非常NB的系统,但没人见过,在工业界很多人就想按其思想去仿作,当时Apache Nutch Lucene的作者Doug Cutting也是其中之一,后来他们被Yahoo收购,专门成立Team去投入做,就是Hadoop的开始和大规模发展的地方,之后随着Yahoo的牛人去了Facebook, Google, 也有成立了Cloudera, Hortonworks等大数据公司,把Hadoop的实践带到各个硅谷公司。而Google还没有停止,又出了新的三辆马车,Pregel, Caffeine, Dremel, 后来又有很多步入后尘,开始新一轮开源大战。
我们提到Hadoop一般不会说某一个东西,而是指生态系统,在这里面太多交互的组件了,涉及到IO,处理,应用,配置,工作流。在真正的工作中,当几个组件互相影响,你的头疼的维护才刚刚开始。我也简单说几个:Hadoop Core就三个HDFS,MapReduce,Common,在外围有NoSQL: Cassandra, HBase, 有Facebook开发的数据仓库Hive,有Yahoo主力研发的Pig工作流语言,有机器学习算法库Mahout,工作流管理软件Oozie,在很多分布式系统选择Master中扮演重要角色的Zookeeper。
你如何选择Offer,从公司背景调查可以通过Glassdoor查看员工匿名评价,crunchbase查融资,Alexa查网站排名,Linkedin查人才。对于公司大小,是否技术驱动,面向企业,移动端这也是考虑因素。当然如果你有多个Offer可以去互相竞争,实现利益最大化。但最重要的还是你的兴趣,看你的发展平台,除此之外考虑你个人压力,是否能跟生活平衡。最后拿到Offer才仅仅是开始,只有把它付诸实践才有意义!
先介绍技术书籍,Hadoop the definitive Guide 是 Coders at Work, Founders at Work 是一个系列,The architecture of open source application列举了最有名的开源项目架构剖析。除了技术书籍,我还推荐人文书籍比如数学之美,吴军博士出手,Lean In Facebook COO女性如何赢在职场。未来学家雷写的奇点临近,Paypal黑帮成员,著名VC Peter Thiel写创业教程Zero to One, A16Z创始人Ben写的the Hard thing about hard thing.
算法决定选择,选择决定人生!
愚者等待机会,强者把握机会,智者创造机会,让我们追随技术,珍惜互联网给我们的伟大机会,奔跑吧少年!
--关注硅谷最新动态,了解码工求职,工作,学习生活经历。微信上添加“董老师在硅谷”公众号:donglaoshi-123,或扫描下方的二维码,跟我们聊聊你的想法。