出走的门徒之六—第四范式戴文渊：先知登场

最新推荐文章于 2022-09-20 00:26:04 发布

chengtongjia6378

最新推荐文章于 2022-09-20 00:26:04 发布

阅读量147

点赞数

文章标签：人工智能大数据

原文链接：https://my.oschina.net/ZZKAJ23/blog/884941

版权

风口不会随便眷顾一个人。因为历史不会对默默“打怪升级”着墨，它只看结果。

　　在阿西莫夫的代表作《基地》中，除了先知谢顿贯穿全线，其他主角都是门徒。他们内在为直觉所驱动，外在被时代所推动。他们在历史上的出场毫无征兆，却在潮流中游刃有余。你会惊叹，为什么是他？

　　离开谷歌、微软、IBM、Facebook、阿里、百度，告别自己过去的所有荣耀，重新走上创业之路，崇尚技术的护城河。为什么是他？新华网开辟“出走的门徒”系列，讲述这样一群科技界理想主义者的现实路径。

　　从五道口出发，大概地铁十分钟、或者走路一个半小时，就能到达地球中心“上地”。当你走过这里的街道就会发现，挖掘机在冬天挥着大爪子寻找青草的味道，麻辣烫和烤串的香味即使在白天也勾搭诱人。

　　在这里，吃和住解决了，这帮人就开始琢磨着改变世界。他们会一边撸着串，一边聊着怎么样让用户每天对着冰箱说话，“10元钱+2小时”能不能同时解决产品封装和一顿晚饭，以及你怎么判断正在烤串的大爷是不是一个人工智能。到了夜晚，他们一边看着凌晨2点的北京，一边坐车到回血点——回龙观完成新一轮的升级。

　　这里，聚集了目前中国技术最好的一批人，空气中都漂浮着未来的味道。

　　戴文渊从最开始背靠香港，还是决定，在两年前把公司搬到了上地。然后，目前能支持超大规模集群以及数据量的人工智能应用者开发平台——“先知”，在这里降临。

　　从拿到ACM竞赛冠军，到研究人工智能，再到织出百度凤巢，登上华为诺亚方舟……戴文渊用近十年证明，“AI”是可以“for someone”的。未来十年，戴文渊的第四范式和“先知”平台要证明的，是“AI”终将“for everyone”。

　　如果回头看戴文渊的这十几年就会发现，所谓先知，并不见得是可以某一次时，比别人先走三步；而是在趋势开始前，永远可以精准地先走半步。

预兆：用3岁孩子的思考模式跳出AI固有解决方法

　　沈南鹏在第一轮就投了第四范式。那是在2015年，当戴文渊把所有要干什么都说完之后，沈南鹏问，“你有什么问题想问我的？”戴文渊就问，你怎么看待我们做的这个事情。现在回忆起来，戴文渊依然记得当时沈南鹏说，“我其实不太关心你们做的是什么。在创业的初期阶段，相较于具体的业务，我更关心你的团队。”

　　红杉投资看人。2年过去，说起这一幕，戴文渊说，如果现在再见到沈南鹏，“我很想告诉他，我还在做当时的那个事情”。

　　所谓“当时那个事情”，戴文渊是在2005年入坑的。彼时，他获得了2005年ACM国际大学生程序设计竞赛世界冠军。这项由美国计算机协会（ACM）主办、被称为计算机界奥林匹克，一般描述是“入门之后基本拿奖靠智商，拿到银牌就能成为offer收割机”。

　　那会，上海交通大学计算机系有一个实验班，学生大三就可以按个人喜好选择实验室。戴文渊在外备赛，等结束时，像图形学（即CG）等热门方向都选完了，只剩下冷门的人工智能没有人选。“那个年代，没有人相信AI能做成。”戴文渊说。

　　在学术界，戴文渊多走了的半步，叫做迁移学习。

　　如今，在迁移学习领域，论文引用数排名第一的，是戴文渊的导师、香港科技大学计算机系教授杨强，华人界首位国际人工智能协会院士。而戴文渊，凭借10年前发表的一篇论文（Boosting for Transfer Learning），单篇论文引用排名世界第三。

　　但在当时那个年代，整个AI学界都是基于凸优化（机器学习中的最优化问题）做AI研究。参加学界会议，一半的人都在研究最优化，就和现在一半的人都在做深度学习一样。

　　而且，即便是深入多年的学者，自己也不相信基于这条路，AI可以做出来。可以建出非常好的数学体系，却没有能力为它提供知识的内容。我国自动化领域的领军者王飞跃教授曾说，“到2005年，人工智能领域在中国几乎没人了，全走了。”当时甚至有一个说法，做人工智能的全都是吹牛的。

　　走这样一条学术的路径，做出来的效果和一个3岁小孩的认知力相比，还差的很远。那为什么不去学习3岁的小孩怎么思考？人是基于神经的学习，为什么AI不能用神经网络做？杨强带着戴文渊，在没有太多经费支持的情况下，硬是把这个方向坚持了下来。

　　AlphaGo就是典型3岁孩子获取知识的思路。“所基于的人工智能技术，强项不在于推演，而是借鉴过去见过的局面。所以，如果要击败AlphaGo，需要尽可能把局面导向历史上没人下过的棋。”在AlphaGo和李世石对弈第一局后，戴文渊在知乎上回答。他还不忘提醒，想要不败，需要注意控制自己的心魔。

指引：用技术验证对人工智能的坚定信仰

　　结局大家都知道了。在“虐”完李世石之后，AlphaGo横扫了围棋界，然后又在德州扑克中成为“赌神”。这时候大家一下子都懵了，原来“算法+大数据”可以让人工智能这么猛。

　　这一点，在2008年戴文渊就认识到了。多年的积累和强大的判断力，让他意识到数据在AI这条路上的强大助力。用他自己的话说，“这时候一些大型互联网公司，数据的累加对人工智能会做的贡献，开始比在学术圈做算法的技巧，更有意义，会有最大的提升”。

　　对于趋势的判断，他有着不容反驳的自信。“我一直是做AI，十几年了。对这个行业应该做什么事、处于什么状态，有自己的判断，我不会在十几年前做这个事情，那时候技术还不足以支撑。”

　　必须要去一个数据量最大的公司，才有可能不断测试自己的算法技能。然后他自己认为当时国内只有百度符合条件，直到2011年BAT才都可以做到。

　　在将AI产品化的阶段，戴文渊多走的那半步，是更早认识到了数据的魔力，证明AI是可以“for someone”的。

　　他和当时还是实习生的陈雨强，共同搭建了一个商用的深度学习系统，也就是百度的“凤巢”广告系统。从接手这个系统时，戴文渊一直主张引入深度学习，这恐怕是国内历史上第一次用超大规模的集群，跑一个PB级的数据量，为一个应用来建模。这和过去的建模相比，至少是大了四到五个数量级。用他自己的话说，“在一个AI的从业者来说，这是我第一次把我的想法在产业落地，创造出价值。”

　　后来“凤巢”系统成功验证，在超大规模数据中机器学习确实能给业务带来正向效果，百度的变现能力也提升8倍，这让戴文渊的团队获得了百万美金的“百度最高奖”。

　　而离开百度的原因，是戴文渊有一天忽然发现，自己过得太舒服了。自从，他每天上午10点上班、下午6点下班，感觉自己的位子如果换成别人，业绩也会很好，不会有任何改变。“有的时候老板叫我去研究一个东西的时候，我已经研究好了。”戴文渊说，那种躺在床上“混吃等死”的感受太不舒服了。

　　在华为也是一样。刚到华为的时候，华为正在与国际巨头争夺自己在金融领域的话语权，“去银行争解决方案，那个阶段的华为赢面并不大”有一次，在离给客户承诺的时间还有2星期时，一个问题当时的工程师怎么都调试不出来，大家压力都非常大。

　　那会戴文渊已经有3年没有写过代码，他花了15分钟把代码写完并解决了。对于帮华为在金融领域凿开口子这一点，戴文渊颇为满意。那一仗打得非常漂亮，华为最终竞标成功。

降临：用“先知”2周培训出一个AI专家

　　然而，攻城略地的日子很快就没了。等到快离开华为的时候，他似乎每天只需要工作1天，其他时候就是打卡。要是在知乎上回答问题，戴文渊最适合的大概有两个，第一个是“在大公司最年轻的T10科学家位子上混吃等死是种什么样的感受”，第二个是“喜欢安逸的金牛座如何跳出自己的舒适区”。

　　这个穿着格子衬衫、戴着黑框眼镜、谈吐娓娓温和的年轻人，骨子里有着一开口就能感受到的“不安分”。

　　在百度做AI，和出来创办第四范式做AI，完全不同。在百度，你是做战斗机，因为利润足够高，花多少钱都无所谓。“当年在凤巢时，一年在我们这个团队就有几百个人”。戴文渊觉得，自己的主线应该不是帮百度再多挣几百亿元。AI能不能帮一家企业去提升价值，这个问题是不需要再去论证的。

　　“我希望做AI的能量更大一些”。戴文渊说。在AI工业化阶段，他正在试图再多走半步，证明AI可以for Everyone。

　　2012年，还在百度的戴文渊和陈雨强一起做了一个尝试，让他一个人去重新做一次凤巢。拿深度学习的新技术，一年半把整个凤巢全部重新做一遍，将效益提升了4%。这也就意味着，才花了1.5人/年，就干了原来上千人月做的事情，通俗地说就是把机器学习的成本降了一千多倍。

　　2016年7月，第四范式发布了一款人工智能开发平台“先知”，这是AI领域首个面向应用者的开发平台。第四范式对先知设置了参数自动化的算法，并搭建了比Spark快数百倍的机器学习的基础架构，它降低了人工参与的特征工程和模型训练过程，还能提供自动或半自动的特征工程、模型选择调参工具，降低了对数据科学家的依赖。

　　用戴文渊的话说，就是一个完全不懂技术的小白，大概经历2周的时间，就可以成为一个AI专家。去年年底，戴文渊利用这个平台在公司内部做了一个叫做“一颗赛艇”的竞赛，这估计是全球首个非专业人士参加的人工智能建模大赛。这场特殊的比赛，对参赛选手唯一的身份要求，便是非“数据科学家”、非“建模工程师”；此前，纵然人工智能攻陷了围棋、扑克领域，也没有任何一个公司敢挑战“让普通人做出AlphaGo”这一难题。

　　在没有经过任何专业培训的情况下，这些销售、市场、公关等非专业人士中，有超过70%的参赛组合AUC成绩（AUC是衡量模型效果的专业指标，取值在0到1之间）跨过0.8大关。在实际业务中，凡是AUC高于0.8的模型就已经达到工业水准；而在整个行业中，只有极少数深耕机器学习多年、拥有丰富大规模数据处理经验的数据“大神们”才能搭建出AUC0.8以上的模型。

　　“但先知这个平台，在我的心中还没有及格，路还很长。我们还有30%的人经过了培训没有做到”。戴文渊说，过去一段时间，公司把较多精力放在了机器学习的算法。“现在的门槛不是算法，是数据怎么样能和平台实现无缝对接。”

　　他满脑子都在想，怎么样通过降门槛、降成本，让每个人都能用的起AI，让每个公司都可以实现自己的AI策略。“我们总结出‘4+1’个先决条件：一是要有数据；二要有明确定义的业务目标；三是充足的计算资源；四是要有算法能力，当然也可以由第三方来提供。最后是一个plus，属于没有没关系，但有了更好的，就是形成反馈闭环。譬如说你下了一局围棋获得的数据，能形成反馈进一步优化算法”。

　　“AI过去是只能服务一家，现在可以服务几百家，以后可以服务每一家”。商业化阶段，戴文渊用最坚定的信仰告诉大家，AI是真的可以“for everyone”的。

布道：用“不舒适”创造自己的舒适区

　　“不过，后来我也想明白一个事情。其实我们的大环境缺的并不是有理想有抱负的科学家，而是sponsor（发起人）。所以真正挑战人类的其实是IBM，不是许峰雄；是Google，不是DeepMind团队。就像，真正修成圣彼得大教堂的，是天主教会，而不是米开朗基罗。这也是为什么，我觉得还是要做一个公司，用商业的成功带动科技的成功”。

　　这种用天衣无缝的逻辑，论证直觉准确性的思维模式，实在是戴文渊最具魅力的地方，更是值得不少创业者深思的。即使他说的是一个故事，这难以让人反驳的强大论证能力、缜密逻辑能力、快速执行能力，也让你甘心把酒奉上。

　　在没有当CEO的时候，戴文渊认为自己“并不关心别的同事在做什么”，除非“他做的事和我的技术目标有关联”。但现在，这种纵向思考的模式正在逐渐改变。

　　他开始把与国际前沿技术的对接，放心地交给杨强教授这个公司的精神领袖；把人工智能在工业应用上的优化与研究，交给人工智能行业大牛陈雨强；把产品化交给另一位联合创始人胡时伟。

　　他依旧追求技术细节，但是更多时间会放在把控公司大方向上；去把所有技术的成果，去和产品、商业市场做对接，做技术和市场商务之间的桥梁；同时，他开始去管理那么多门槛不同、优势不一，甚至在除了技术之外的其他很多方面比他强的人。

　　“技术只有0和1的区别，没有0.1。但现在我要把自己变成一个没有0和1的人，才能把整个团队联接好。”戴文渊回忆起当年以队长之职准备ACM竞赛时，对每个队友的选择都用最高的标准，容不得一颗沙子。而到了工业界，这种管理的模式行不通了。

　　做技术出身的人，常常会追求安逸，觉得一个有网络的世界就够了，觉得自己可以写一辈子的代码；而现在面对市场，却发现市场是一直在变的，是最没有稳定和“一招鲜”的。

　　戴文渊觉得自己永远都没有安全感，却在不停的改变中发现，市场怎么变，自己都不会死。这种永远不在舒适区的状态，反而给了自己莫大的安全感。真的不知道有多少创业者，会对此有共鸣。

　　直至目前，非BAT的公司，即使是非常不错的企业，都仍然很难找到靠谱的人完成AI团队的自建，成本、人才都是门槛，技术团队的人太贵了。“绝大多数企业都希望有这一条路，但这一条路在目前是走不通的。一定得是平台，得是降门槛，才能让更多人参与，让十来万个人来一起玩，才能遍地开花。”戴文渊说。在这一点上，他两次用“要相信”来强调自己的立场。

　　的确，我们或许不会记得PC是谁发明的，但我们会记住PC是乔布斯带给世人的。在智能时代的浪潮之巅，也许我们不会记得谁发明了深度学习，但我们每个人都记住了AlphaGo。戴文渊，这个把人工智能的火种燎原到各行各业的人。

　　20年后，新时代再见。

转载于:https://my.oschina.net/ZZKAJ23/blog/884941

chengtongjia6378

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
出走的门徒之六—第四范式戴文渊：先知登场

风口不会随便眷顾一个人。因为历史不会对默默“打怪升级”着墨，它只看结果。　　在阿西莫夫的代表作《基地》中，除了先知谢顿贯穿全线，其他主角都是门徒。他们内在为直觉所驱动，外在被时代所推动。他们在历史上的出场毫无征兆，却在潮流中游刃有余。你会惊叹，为什么是他？　　离开谷歌、微软、IB...
复制链接

扫一扫