普林斯顿大学招聘之学术报告系列

http://blog.sciencenet.cn/blog-414166-573012.html

每年二三月份是美国高校招聘助理教授教授的季节,今年普林斯顿计算机系只计划招一位助理教授,但上百人申请,其中9位获得面试机会。他们会来到普林斯顿进行为期两天的面试,不仅要和系里十几个教授面谈,而且要向全系作学术报告。

我参加了大多数候选人的学术报告。这9位候选人分别来自不同的领域,有新兴的Crowdsourcing、用户隐私,也有相对比较传统的生物计算、无线通信等。9位候选人都是各自领域最杰出的新秀了,都是今年美国计算机领域Faculty市场的热门人选。

这篇博客将介绍其中5个很精彩的报告,从学术报告角度来呈现普林斯顿的助理教授招聘的一面,同时也算是一篇介绍计算机学科前沿研究的科普文章。( 注:我去年也写过一个博客,介绍了【2011年普林斯顿计算机系的助理教授招聘学术报告】,欢迎阅读


1. Crowd-Powered Systems

Michael Bernstein MIT


研究背景 Crowdsourcing 是近年来的研究热点,主要思想是通过互联网络将人联起来,利用人的智能共同完成一个任务。


CMU的【Luis von Ahn】教授是这个方向的先驱。他是网络验证码CAPTCHA的发明者,但发现全世界因此每天浪费15万个小时。于是他又发明了reCAPTCHA,基本思想是用两个单词做验证码,其中一个是计算机能识别,另一个是将古书中计算机不能识别的单词,但人却很容易识别。通过利用人的智能,在输入验证码是也在帮助识别古书中的单词。这项技术全世界有上亿人在使用,几个月时间就将1851年起所有的纽约时报都识别并数字化。

 

但如果把人看作是一种“计算机”的话,从而组成一个Crowd-Power System (CPS),这样的系统最大的问题在于结果不确定性、反应速度慢。比如有人利用Amazon的【Mechanical Turk来招募很多人测试投硬币实验,让人们随机报一个硬币的某一面,希望结果是50%正面,50%反面。但实际结果是65%的人报正面。


学术贡献那么该如何在这样的系统上编程、如果保证快速得到合理的结果呢?Michael提出了一种“编程接口”——Find-Fix-Verify。利用这种模式,可以有效地解决结果不稳定性问题。另一方面,他提出了Retainer Model,研究如果给予适当奖励对返回结果速度的影响。他通过研究不同的奖励策略,使用户在提交请求后2秒内就能得到结果。

 

为了验证他的想法,Michael搭建了两个系统:一个叫Soylent可以用来编辑文本,另一叫Adrenaline,可以实时搜索照片。


影响力: Michael的工作多次被媒体报道,比如2010年MIT的Technology Review撰写了文章【Adding Human Intelligence to Software】报道了他的工作,而2012年的PCWorld网站则报道了他在ACM CHI会议上发表的最新进展【More Search Could Be Crowdsourced


花絮:Michael实力很强,从他拿到的面试学校名单就能看出来,几乎所有牛校都给他面试机会,PrincetonStanfordBerkeleyCMU。。。他无疑是今年Job Market的一个热门人物。

 

 

2. Computational approaches for the DNA sequencing data deluge

Ben Langmead】, University of Maryland College Park


研究背景:生物计算是计算机科学在生命科学中形成的一个研究领域,利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前主要的研究方向有:序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型。


其中基因测序是生物计算中的热点,也是难点。一条有几十亿核苷酸组成的DNA序列会先切成千上万条长约600到800个核苷酸的DNA片段,这些片段的两端相互重叠,然后通过计算机把它们拼接起来。这个拼接的过程非常复杂,往往需要超级计算机来完成,有时要耗时几个月的时间。


学术贡献:Ben的主要贡献是将数据压缩中的Burrows-Wheeler Transform (BWT)用来对基因序列做索引,在此基础上进一步提出双向索引(Double-Index)技术,将生物计算中最耗时的基因序列比对步骤性能提高了30X甚至100X以上,可以说是极大地推动了生物计算整个领域的发展。


影响力:Ben提出的索引技术被几乎所有基因序列比软件采用。Ben自己也有很强的开发能力,开发了BowtieBowtie 2CrossbowMyrna等多个开源软件,其中Bowtie是基因序列比对应用最多的软件。他2009年在Bioinformatics上介绍Bowtie设计思想的文章目前引用已经【超过了1200】,而介绍Bowtie 2的文章则发表在2012年的Nature Methods上。

 

2010年以来,他被各个大学、研究机构邀请做了12次学术报告,因此很明显当天给报告的气场很足。不管是介绍自己的工作,还是回答听众的问题,很是自信,并且对一些观众的建议还表达出恰到好处地谦虚。我听完Ben的报告,觉得即使算上去年的那么多面试报告,他的表现也是数一数二的了。

 

花絮:总体来看,Ben可以算是今年Job Market上生物计算领域中最好的应届博士毕业生了。他所在的实验室背景非常强,李凯老师讲了一个他们实验室的故事:2001年美国出现“炭疽邮件”,导致5人死亡几十人人感染。Ben的两个老板Steven L. Salzberg和Mihai Pop利用基因分析技术定位到了炭疽病毒的来源,为FBI破案提供了关键线索。


 

3. Data Privacy Technologies: From Alchemy to an Engineering Discipline

Arvind Narayanan】, Stanford University

 

研究背景:Arvind是由【Ed Felten教授给大家介绍的。Felten教授去年担任美国Federal Trade Commission的首席技术官,在白宫工作了一年。他介绍说Arvind在数据隐私方面的工作引起了白宫的高度重视,政府已经在着手制定法律以解决Arvind发现的隐私保护方面的漏洞。

 

美国是一个很重视隐私的工作,一些涉及到用户的数据如果要公开,联邦法律要求要将用户信息匿名化,比如用随机数替换用户名、故意加一些错误起混淆作用等等。这样其他人就无法用这些数据反推出某个具体的用户。2006年,Netflix悬赏一百万美元征集方案改进其电影推荐系统。为此,Netflix提供了1999~200550万用户的1亿条电影打分记录(Movie Ratings),同时他们通过了上述各种手段将这些记录匿名化以保护用户隐私。

 

学术贡献:Arvind很有想象力,他发现尽管这些数据已经匿名化,但可以通过其他公开信息,将那些数据去匿名化。他把这个问题抽象成一个图匹配问题,然后设计了一个很有效的算法,可以将两个图节点匹配起来,即使其中一个图存在一些错误。

 

Netflix的那个数据为例,他用AmazonIMDb (International Movie Database)的一些信息来辅助分析。结果发现,对于一些同时注册NetflixIMDb的用户(57%),只需要分析8部电影就能去匿名化,准确率高达98%。也就是说,在Netflix匿名数据中,挑一个用户,根据8部电影,就能找到这个用户在IMDb的账号,进而知道这个用户在Netflix上还看过哪些电影。因为IMDb是公开的,大家打分时会比较谨慎,有些电影看过也不一定打分。但是Netflix的观看记录是不公开的,这个活动已经违背了保护用户隐私的底线了。因此,Netflix不得不取消的这个悬赏活动。接着Arvind又对社交网络(Social Network)甚至笔迹进行了分析,发现这个算法都非常有效。

 

此外,他还做了其他很出色的工作,影响了网络媒体的广告推荐系统。他提出了一个系统设计的框架和规范,试图将加密技术、工程设计和政策管理融合起来。他在CACMIEEE S&P等顶级会议、期刊上发表了10多篇文章。他的报告前面半小时讲的非常好,但后面因为时间紧张,讲得很仓促。李凯老师说,他做了太多的工作,他试图在1小时内讲10篇文章。


影响力:Arvind的工作颠覆了人们对保护隐私的传统观点,引起社会各界的关注,也促使白宫着手修订法律;几乎Arvind的每项工作都有许多主流媒体报道,如美国国家广播电台(NPR)、纽约时报、华盛顿邮报、时代周刊、BBC等,完全是一位明星科学家。

 

花絮:在录用结果出来之前,我们就开始讨论,觉得Arvind非常适合来Princeton。因为2005Princeton联合计算机系、公共事务与政策学院、社会学系成立了【CITPCenter for Information and Technology Policy】中心,专门研究计算机技术与政策的关系。所以Princeton很可能会给他一个 offer

 

 

4. Modeling People from Billions of Photos

Ira Kemelmacher-Shlizerman】, University of Washington

 

研究背景:如今数码相机已经成为很多家庭的必备电子产品,如果我们统计一下的话,每个家庭很可能有几千甚至上万张照片,这些照片记录着家人生活的点滴,记录着孩子们的成长,那么如何浏览这些海量照片呢?


学术贡献: Ira 想到了视频!她发明了一种全新的照片浏览方式——Face Movie——能从一个人的众多照片中挑出合适的照片自动生成视频。 


当确定了目标后,问题就转变为如何从大量照片中找到合适的照片来生成视频。她将此问题抽象为一个图最短路径搜索问题,每张照片是一个节点,两张照片之间有边,权重是两个照片的相似度,然后可以利用一些图算法计算出一条最短路径,把该路径上的照片挑出来生成视频。接着她又做了一些了工作对视频效果进行优化。


影响力:这是一个非常有趣而又实用的工作。如今,Face Movie已经成为了Google Picasa的一个新功能,全世界上千万人在使用。这是优酷上【Face Movie的宣传片】,有孩子的家长们一定不要错过。我也下载了Picasa并给女儿苗苗做了一个两周岁的视频,效果挺不错。推荐给了周围不少朋友,他们也都很喜欢。


Ira的工作也是得到了大量媒体的报道,包括一些著名的科技杂志和网站,如《新科学家(New Scientist)》、《Discovery News》等等。


花絮:但这个工作其实有些曲折,之前投ACM SIGGRAPH会议连续几年都没有中,后来她的老板去Google访问,说服Google在Picasa中实现这个功能,从而一举成名。

 

另外,Ira是以色列Weizmann Institute of Science (WIS)毕业的博士生,现在UW做博士后。值得一提的是去年Princeton也招了一个WIS毕业的做理论的助理教授【Zeev Dvir。以色列虽是弹丸之地,但学术研究确实不可小觑。

 

 

5. Embracing Interference in Wireless Systems

Shyamnath Gollakota】, MIT

 

研究背景:无线网络已经无所不在,已成为人类短距离通信的最重要途径之一。但和有线网络不通,无线网络采用广播的方式进行通信,在这种开放式环境下,就会出现很多安全问题。比如无线网络传输的数据很容易被别人获取,Google就面临这方面的官司,控诉其利用拍摄街景地图的汽车来收集沿街的无线数据【新闻:街景记录Wi-Fi个人资料 Google面临官司和调查】。另一方面,无线网络也很容易受到恶意干扰或者攻击,比如有一些工具可以探测周围无线路由器的密码。

 

学术贡献:无线网络传输会被恶意干扰,传统的802.11规范是采用重传机制来消除干扰,但会无线网络包后半段仍然出现冲突,导致不断重传最终出现大量丢包。Shya提出了一种可以利用这种干扰的解码方法,能将存在干扰情况下无线网络的丢包率从72.6%降低到0.7%。这个工作获得了SIGCOMM'08会议的最佳论文奖

 

既然能把被动干扰利用起来,他进一步考虑如何利用主动干扰来加密无线通信信道,工作发表在Usenix Security'11会议上,被评为Second AT&T Best Applied Security Paper。下一步,他又把这个技术应用到医疗植入设备上,从而有效地保护了心脏起搏器的无线通信,关于这个工作在我的微博有介绍过,又获得了SIGCOMM'11会议的最佳论文奖

 

影响力:ShyaMIT6年里一共发表了6SIGCOMM2篇获最佳论文奖,另外还有Usenix Security会议的Best Applied Security Paper,研究能力绝对令人叹为观止。他的工作也是经常出现在媒体上。


花絮:说到Shya,不得不提他所在的小组——MIT的【Dina Katabi小组。Katabi教授来自局势很不稳定的叙利亚,但这并不影响她的学术研究。相信网络领域的人不会对Katabi教授陌生,她工作的特点是将一些理论领域上的研究成果应用到系统中去,比如他们组最早在真实系统中实现了Network Coding。他们组在SIGCOMM、MOBICOMM、OSDI、NSDI等顶级会议上每年都有稳定的5~7篇文章,绝对是全世界最顶级的研究小组之一了。


Katabi教授以前的工作都是如何应用理论,但最近已经他们组发明了一种全新的【sFFT算法】,将稀疏的FFT变换速度提高好几个数据量,在理论的顶级会议STOCSODA上连续发表论文,引起各大科技网站的大幅报道。



7. 招聘结果


听完了所有候选人学术报告,有一次李凯老师让我们给候选人排序,我们提出三位可能人选:数据隐私、无线安全和生物计算。李老师认为这三个人都有希望,今年系里原计划只有1个名额,但他们非常优秀都是各自领域最顶尖的毕业生,系里也在考虑增加名额。选人最终演变为选择方向!


到了5月初,李凯老师跟我们说,今年的候选人确实太优秀了,所有最后系里决定给三个人发offer,正是我们之前提到的那三个候选人。不过听说生物计算的Ben Langmead把普林斯顿婉拒了,相信他有更好的选择;而研究安全隐私的Stanford的Arvind Narayanan拿到了普林斯顿和CMU的录用通知书,最终选择了普林斯顿;另一位来自MIT做无线的Shyamnath Gollakota则选择了University of Washington。



8. 借鉴意义


这些候选人的学术成果令人叹为观止,他们无疑是世界顶尖的博士毕业生了。那他们有什么特别之处呢?


首先,听他们的报告明显能感觉到他们的想象力,有的研究问题非常新颖,有的擅长借用其他领域的知识,很佩服他们那种在科研中能熟练运用“四两拨千斤”的功力。然后,他们强于钻研,一些看似无从下手的课题,他们能层层剖析、深入挖掘,最终定位到很具体的若干难点,进而寻找有效的解决方案。其次,他们的导师都是在学术界享有声誉的学者,都有丰富的指导学生的经验,在这些卓越的导师培养下,这些新鲜出炉博士(后)毕业之际已经能在科研上独挡一面。再次,他们的表达能力普遍都很强,逻辑非常清晰,即使不同领域的人也都很容易理解他们的工作。最后,他们都非常有信心可以很明显感觉到他们报告时的气场,以及回答问题时的那种从容和自信。


外部环境也起到一定的作用。美国的科普工作做的非常出色。一方面美国有大量的科技网站、杂志,比如MIT的Technology Review等,另外每个领域都有不少专门的科技网站,比如计算机领域有PCWorld、HPCWire等,他们会不断地跟踪最前沿的科技进展。另一方面,研究人员也很注重宣传自己的工作,几乎所有的美国教授及其研究小组都有主页,并不断更新。他们还会自己写一些文章甚至视频介绍自己工作,这方面我发现哈佛的教授做的特别突出,他们很多主页上都是有视频介绍自己的工作的。科研人员也很乐意接受这种采访。


高水平的科普也提高了民众的科学素养,老百姓愿意去关注这些科技前沿,这对培养科研人员的兴趣和动力起到很好的正反馈作用。科普这方面,不得不承认,我们国家还是落后不少,很多科研人员的科普意识还不强。(我以前也写过一篇对比美国和中国科普的博客,【Discovery Channel v.s. CCTV-10】,希望能引起大家注意)


如果再仔细观察9个候选人的国籍的话,可以看到只有2位美国人,其他是3位印度人、2位以色列人、1位中国人和1位克罗地亚人。目前而言,美国还是世界的人才中心,这种优势短期之内还是无法撼动的。美国这方面的优势除了体制外,很大程度上是因为其本身是一个移民国家,国民没有很强的民族感,因此相对更开放一些。比如,最近【MIT的新校长L. Rafael Reif】是在委内瑞拉本科毕业后才到美国读博的,而委内瑞拉和美国相互之间其实并不友好。这放到其他任何国家都不可能发生的。


中国同样也做不到这么开明,这和我们悠久历史塑造的民族自豪感有关。日本和中国类似,民族自豪感很强,他们估计也很难接受外国人担任顶尖大学校长,但日本科技在很多领域依然能做到世界顶尖。也许,在如何吸引和保留本土人才方面,我们可能更应该向日本学习。




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值