关闭

博士论文的诞生,1988年最重要的科学发明-新书选载

766人阅读 评论(0) 收藏 举报
“什么是做博士的目的?”在我选定研究方向,正准备挽起袖管大干一番的时候,我们的院长尼科·海博曼问了我这个问题。我想都没想,脱口而出,“就是在某一个领域做出重要的成果。”“不对。”尼科·海博曼教授不假思索地否定了我。他告诉我,“读博士,就是挑选一个狭窄并重要的领域作研究,毕业的时候交出一篇世界一流的毕业论文,成为这个领域里世界首屈一指的专家。任何人提到这个领域的时候,都会想起你的名字。”

  海博曼教授的“做世界某一个领域的一流”的观点,让我十分震惊,我从未奢望在20多岁时走到某个领域的顶峰,但是这种“要做就要做到最好”的激励,我始终铭记在内心深处。

  看到了我的兴奋,海博曼教授问我:“你懂了吗?”我说:“懂了,我从卡内基·梅隆大学将带走的就是这份改变世界的、顶尖的博士论文。”他又说:“不对,你从学校带走最有价值的不是这份论文,而是你分析和独立思考的能力、研究和发现真理的经验,还有科学家的胸怀。当你某一天不再研究这个领域的时候,你依然能在任何一个新的领域做到最好。”这番话引起了我深深地思索,也再一次印证了“沉淀下来的才是教育”这句话的意义。学习成绩只是一种表象的结果,而学习能力才是伴随一生的能力。

  1983年10月,我走进语音识别的世界。开始和瑞迪教授一起探讨语音识别领域里现有的成果以及如何突破的可能性,瑞迪说,“你来做一个不特定语者的语音识别系统吧。”当时这在世界上是一个无解之谜。

  所谓不特定语者的语音识别就是说让电脑能够听懂每一个人说出的话,并且识别出来,最后希望达到的最理想状态就是让机器对人的语言有所反应,最终达到“人机对话”的理想程度。在我当时所处的年代,人们所做的语音识别系统研究,还只能识别一个人的声音,也就是“特定语者”的研究。因此,瑞迪教授对我的期望就是让我把这个研究成果扩展出来,形成突破,让机器对更多的人的语言识别率提高。

  瑞迪告诉我,“我觉得专家系统是解决不特定语者问题最好的方法,这也是最火的新技术。希望你试试。去吧,小伙子,尽情做你的研究,我这里有科学基金的研究经费,因此你不用担心钱的问题。” 在巨大的期望下,瑞迪把课题的接力棒交给了我。

  经过数月的钻研,我把整个研究过程写了篇论文发表出来,得到了正面的回馈。第一次,人们知道,在有限的领域和单一的语者身上,专家系统研究出来的机器语音识别率可以达到95%。这意味着,人和机器可以进行简单的对话了。那段时间,瑞迪开心得不得了,并且更加坚信“专家系统”的方法是个正确的选择。

  尽管面对一片好评,我却显得非常沉默。其实,这个时候我内心的担忧早已开始慢慢滋长了。因为,在研究的过程中,我已经发现专家系统的前景非常不明朗,因为机器经过很长时间的训练,只能听懂特定20个训练者的语音。而人与人说话的音节和语调千变万化,只要换了另外100人的声音重新检验原来的研究成果,其识别率立即下降到不能想象的地步,只有30%左右。而且,我们仅仅用了26个词作为词汇,一旦增加词汇,整个系统就将崩溃。

  1984年暑假即将来临,我正沉浸在自己课题的十字路口上,不知道何去何从。这个时候我遇到了我的一个师兄彼得·布朗(Peter Brown),他看到我愁眉不展,就把我叫到一间教室里,在黑板上写了几个统计学公式。彼得·布朗对我说,“开复,我知道你在做语音识别,并且为之苦恼,但是你为什么不尝试一下统计学的方法呢,从统计中抽取数据我想应该能够提高语音识别率,你觉得呢?”


  所谓统计学的方法,就是从庞大的数据库中进行归类,通过特征的归纳使得数据通过“分类器”,得到结果的一种方法。对于是否能用大量数据库对声音进行统计,我心中充满了好奇与问号。而用统计学方法来研究语音识别的想法,开始在心中慢慢地滋生。

  就在我暑期忙着教书,秋天投身奥赛罗时,瑞迪教授从美国国防部得到了300万美元的经费做不指定语者、大词库、连续性的语音识别。也就是说,他希望机器能听懂任何人的声音,而且可以懂上千个词汇,懂人们自然连续说出的每一句话。这三个问题都是当时无解的问题,而瑞迪教授大胆地拿下项目,希望同时解决这三个问题。他在全美招聘了30多位教授、研究员、语音学家、学生、程序员,以启动这个有史以来最大的语音项目。而他也期望我在专家系统方面继续努力,得到突破,在这30多人的队伍里面发挥作用。

  但是,他怎么也没想到,我正想着如何脱离这个30多人的队伍,脱离专家系统的研究。奥赛罗的人机博弈,让我对统计概念有了充分的理解,我开始相信,建立大型的数据库,然后对大的语音数据库进行分类,就有可能解决专家系统不能解决的问题。

  怎样向他提这件事?我一直在犹豫,他已经向国防部立项,经费已经到位,专家系统的方向是势在必行的,我是他一手调教出来的大弟子,如果我这么不配合他的方向,他会怎么处理呢?会试着说服我继续做专家系统?会大发雷霆?还是会好言相劝?

  再三思考后,我告诉自己,我必须向他坦承我的看法,因为我想起当时海博曼院长对我说的:“读博士,就是挑选一个狭窄并重要的领域作研究,毕业的时候交出一篇世界一流的毕业论文,成为这个领域里世界首屈一指的专家。任何人提到这个领域的时候,都会想起你的名字。”如果我做专家系统,我就愧对了海博曼院长的期许,也浪费了我大学三年苦读,更对不起我自己。

  于是,我决定鼓足勇气,向瑞迪教授直接表达我的想法。我对瑞迪说:“我希望转投统计学,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’。”

  瑞迪一点都没有生气,他轻轻地问:“那统计方法如何解决这三大问题呢?”这正是我思考很久的三个问题。然后,我就长篇大论地说了十分钟,瑞迪教授耐心地听完我激情的回答后,用他那永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信科学没有绝对的对错,我们都是平等的。而且,我更相信一个有激情的人是可能找到更好的解决方案的。”

  那一刻,我的感动无以伦比。因为对一个教授来说,学生要用自己的方法作出一个与他唱反调的研究。教授不但没有动怒,还给予经费上的支持。这在很多地方是不可想象的。

  但是,统计学需要大数据库,我们如何才能建立起大的数据库呢?瑞迪教授看到我愁眉不展的样子,再一次给了我支持。他说,“开复,虽然说我还是对你的研究方法有所保留,但是,在科学的领域里,其实也无所谓老师和学生的区别,我们都是面临这一个难题的攻克者,所以,如果你真的需要数据库,那么,让我去说服国防部去帮你建立一个大的数据库吧!”

  统计学的方法也需要非常快的机器,瑞迪教授帮我购买了最新的Sun 4机器。每次有新的机器,他都会说:“先问问开复要不要。” 做论文的两年多,我至少花了他几十万美元的经费。

  瑞迪教授的宽容再次让我感觉到一种伟大的力量,这是一种自由和信任的力量。伏尔泰曾说:“我可以不同意你的观点,但是我誓死捍卫你说话的权力! ”瑞迪教授这样说:“我不同意你,但是我支持你。” 这是一种真正的科学家的精神。他这种“科学面前,人人平等”的信念,深深地影响了我。这种无言的伟大,让我受益终生,也让我以这种信念对待他人的不同意见。

  24年后,当我的员工郭去疾离职的时候,他是这么描述我的:“8年来,作为我的师长,开复很多次支持了我的理想,改变了我的命运,也宽容了我的缺点。当你离一个人很近,从他身上学到太多,你可能反而不知道该怎样总结你的收获。但我知道,现在当我遇到一个难以处理的困难,我常常会去想,如果是开复,他会怎么做。假如只能选一条收获来分享,那么开复让我铭记终身的教益是:‘You can sincerely disagree and full heartedly support at the same time(你可以同时真诚地反对和全力地支持)。’以前读到开复的文章里提及他的博士导师怀疑却又支持他的研究方向的时候,我以为那只是一种雅量。而当开复身体力行地一次次怀疑却又支持我的时候,我才慢慢明白这是一种珍贵的领导力。”

  这种领导力只能归功和感谢我的导师,瑞迪教授。

  在导师的这种力量的支持下,我开始了疯狂的科研工作。从1984年底到1987年初,我带着另一位学生一起用统计的方法做语音识别。同时,其他30多人用专家系统做同样的问题。从方法上来说,我们在竞争,但是在瑞迪教授的领导下,我们分享一切,我们用同样的样本训练和测试。在瑞迪教授的支持下,我也慢慢得到了其他教授的认可。1987年5月,我们大幅度地提升了训练的数据库,我又想出了一种新的方法(triphones)来建模,不但能够用统计学的方法学习每一个音,而且可以用统计学的方法学习每两个音之间的转折。针对有些音的样本不够,我又想出了一种方法(generalized triphones)来合并其他的音。这三项工作居然把机器的语音识别率从原来的40%提高到了80%!此后,我继续孜孜不倦地做着各种实验和统计,机器的语音识别率居然提高到了96%!1988年4月,我受邀到纽约参加一年一度的世界语音学术会议,发表学术论文。我给系统取了名字,叫做Sphinx(希腊的人面狮身)。希腊的人面狮身有人的脸孔、狮子的身体、鸟的翅膀,我取这个名字是希望狮子的身体代表宏伟的统计模型,人的脸孔代表人的语音知识,鸟的翅膀代表系统的速度。在这个会议上,我把96%的语音识别率发表了,也演示了Sphinx系统。结果就像瑞迪教授所预期的,学术结果和演示效果相映之下,我的成果撼动了整个学术领域。这是计算机领域里最顶尖的科学成果了。语音识别率大幅度提高,让全世界语音研究领域闪烁出一道希望的光芒,从此,所有以专家系统研究语音识别的人全部转向了统计方法。

  会后,《纽约时报》听说了这个成果,派记者约翰·马可奥夫(John Markoff)来到匹兹堡对我作了采访,文章发表于1988年7月6日,占了科技版首页的整个半版。在这篇文章里,马可奥夫大力报道了我的论文的突破。当时,我只觉得在和一个和蔼可亲的记者聊天,事后,我才知道这是一名才华横溢的著名记者,三次提名普利策奖,并在斯坦福兼教。后来,《商业周刊》把我的发明选为1988年最重要的科学发明。年仅26岁初出茅庐的我,第一次亮相就获得这样的成功,让我感到很幸运,也让我有了继续向科技高峰攀爬的动力。

1
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:277451次
    • 积分:3477
    • 等级:
    • 排名:第9892名
    • 原创:47篇
    • 转载:56篇
    • 译文:0篇
    • 评论:250条
    文章分类
    最新评论