导读:2022年1月6日,国际计算语言学学会ACL正式公布了2021年ACL Fellow名单,机器翻译专家、华为诺亚方舟实验室语音语义首席科学家刘群当选为全球八位新晋ACL Fellow之一。
我们了解到,刘群老师不仅是一个出色的科研人员,他还有另一个身份是一位微博大V,他的微博名称有一个鲜明而有趣的后缀“MT to Death”,这大概是他对MT(机器翻译)始终如一的表白。而“机器翻译”也是他当选2021 ACL Fellow的标签之一。
借此契机,我们对刘群老师进行了一次专访,就其个人跨学术界和工业界的研究经历,针对自然语言处理领域细分趋势及展望,对年轻科研人员的寄语等方面进行了一次深度访谈。
访谈对象:刘群
撰文:Lilian
编辑:梦佳
01
从《数理语言学》入门到真正开始从事机器翻译研究
1984年,刘群刚刚入学中国科学技术大学,攻读的是计算机科学技术专业,本科时期,在中科大合肥校园的图书馆,刘群第一次看到了《数理语言学》,这是我国计算语言学的开拓者之一、世界上第一个“汉语到多种外语机器翻译系统”的研制者冯志伟老师所著的一本书,书中系统地、全面地、深入浅出地介绍了代数语言学、统计语言学、应用数理语言学三个部分的基本知识。 正是这本书在那个网络和传媒尚且不发达的时代,带领刘群认识了自然语言处理这一新的研究领域。
冯志伟老师的《数理语言学》,上图为刘群当时看的早期版本,下图为后来的新版
而在自然语言处理当中,刘群最早接触到的是机器翻译。20世纪80年代末期,新的机器翻译系统大量涌现。1989年从中科大本科毕业,他被保送到了中科院计算所读硕士,开始参与一个英汉机器翻译项目的研究。这也是他走上机器翻译这一方向的真正开端。
02
从艰难起步到一步步走向成功
1992年,刘群硕士毕业,他留在计算所,1993年,他在非常困难的情况下开始了独立的机器翻译研究。刘群选择了汉英机器翻译这一难度更高、对汉语意义更大的课题。随后的研究工作中,他与北京大学计算语言学研究所俞士汶教授建立了长期深入的联系与合作。直到1998年,刘群团队和北大计算语言所联合开发的汉英翻译系统在863中文信息处理与智能人机接口技术评测中取得了较好的成绩。至此,他的机器翻译研究迎来了一个小的高潮。
1999年,刘群报考了北大的在职博士,被录取为俞士汶老师的在职博士研究生。1999年末,俞士汶老师得到一个973子课题“面向新闻领域的汉英机器翻译系统”,刘群以计算所员工和北大博士生的双重身份,担任这个课题组的技术负责人,继续从事机器翻译研究工作。
2004年,刘群在北京大学获得博士学位,并回到计算所继续从事机器翻译研究。2005年,他在计算所评上了研究员职称。从这以后,刘群开始以自己名义正式招收博士研究生,并组建了一支充满活力的研究团队。
在1990年代到2000年代初期,国际上软件开源运动正在兴起,但在学术界,开放源代码还没有形成风气,可获得的开源代码和开放数据资源都十分有限。在那个开源资源非常有限的年代,国内的研究者只能通过有限的学术刊物和会议论文了解国际上最新的研究动态,但这些最新的技术和方法的大部分实现细节,都隐藏在论文介绍的原