NLP大牛菲利普•科恩机器翻译权威著作

2b79bafd6b45a6e158e3cbdf22b5889b.gif

近些年,机器翻译技术发生了翻天覆地的变化。与人工智能中的其他领域一样,深度神经网络已经成为主流范式,在提高翻译质量的同时也带来了新的挑战。

本书的出版恰逢中国机器翻译研究迅猛发展之时。在过去的二十年里,数据驱动方法对中文给予了特别的重视,无论是在学术研究机构内,还是在新兴的人工智能公司中,中国的研究人员都做了大量工作。

机器翻译模型在现实世界中成功与否取决于它在获取信息、跨越语言障碍进行交流方面的实用性。最终希望机器翻译能够让世界各地的人们增进理解,不管他们的母语是什么。开放的思想交流不仅对于科学研究至关重要,而且对于全人类共同努力以实现自由生活,追求与自然和谐相处的幸福这一共同目标同样重要。

845273922ec4c8b7b1d5381cc4b2db09.png

本书内容

深度学习正在彻底改变当今机器翻译系统的构建方式。本书从历史、语言和应用背景等方面介绍了机器翻译和评价所面临的挑战,讲述了自然语言应用中常用的深度学习核心方法。此外,本书还包含使用Python撰写的代码示例,为读者理解和实现自己的机器翻译系统提供了一个实践蓝本。本书内容广泛,涵盖了机器学习技巧、处理各种形式的数据所涉及的问题、模型增强,以及分析和可视化面临的挑战和方法等内容。

本书是对机器翻译应用当前研究的一个总结,可作为相关专业本科生和研究生的教材,也可以作为那些对神经方法在人类语言处理更广泛领域中的应用感兴趣的研究人员和开发人员的参考书。

96b0b2c5fdb25c9fba0c7d36e0b1c05c.png

阅读指南

本书分为三部分。第一部分包含第1~4章,简要介绍机器翻译中的问题、机器翻译技术的实际应用及历史,讨论一直困扰机器翻译领域的译文质量评价问题。第二部分包含第5~9章,解释神经网络、基本机器翻译模型的设计,以及训练和解码的核心算法。第三部分包含第10~17章,既涵盖构建新模型的关键内容,也涉及开放性的挑战问题和一些未解决问题的前沿研究。

本书中的核心概念以四种方式进行介绍:非正式描述、正式的数学定义、插图说明和示例代码(用Python和PyTorch实现)。希望读者能够理解神经机器翻译背后的基础知识,能够实现最先进的模型,并能够修改现有的工具包以实现新颖的想法。

谁适合阅读本书

本书可作为大学本科和研究生课程的教材,也可以与其他应用任务的相关材料一起用于自然语言处理课程或者仅用于侧重机器翻译的课程(其中还应介绍统计机器翻译的某些方面,例如词对齐、更简单的翻译模型和解码算法)。由于本书涵盖了撰写时该领域的最新研究进展,因此它也可以作为该领域研究人员的参考书。

跳读指南

着急的读者可以直接跳到开始介绍核心技术的第5章。第二部分(第5~9章)包含了神经机器翻译的所有基本概念,包括实现此类模型的代码指南。本书的第三部分(也是篇幅最长的部分)包含了构建先进系统所需的许多关键主题。第10章、12.3节和14.1节是必读章节。神经机器翻译是一个快速发展的领域,第11章介绍的Transformer模型能够让你快速了解当前的最新技术。

本书作者

菲利普·科恩(PhilippKoehn) 约翰斯·霍普金斯大学计算机科学系的教授。他是机器翻译领域的领军人物,于2010年出版了教材Statistical Machine Translation(剑桥大学出版社出版,中文版为《统计机器翻译》)。他曾获国际机器翻译协会颁发的荣誉奖,是2013年欧洲专利局欧洲发明家奖的最终三名入围者之一。他还活跃在科技产业界,是Omniscien Technology公司的首席科学家、Meta公司的顾问。

本书译者

张家俊,中国科学院自动化研究所研究员、博士生导师,主要研究方向为机器翻译和自然语言处理,曾获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程和北京智源青年科学家。发表CCF-A/B类论文70余篇,出版学术专著2部,6次获得最佳/优秀论文奖,3次被评为IJCAI、ACL和NAACL的杰出SPC和审稿人。曾获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖和北京市科学技术奖一等奖等,曾担任中国中文信息学会机器翻译专委会副主任、青年工作委员会副主任,多次担任ACL/EMNLP/COLING的(资深)领域主席。

赵阳,博士,中国科学院自动化研究所助理研究员。2019年毕业于中国科学院自动化研究所模式识别国家重点实验室,获博士学位。毕业后留所工作,研究方向为自然语言处理与机器翻译,在国内外相关顶级学术会议(AAAI、IJCAI、EMNLP、COLING等)和著名期刊(TASLP、AI、TALLIP等)上发表20余篇论文。担任国际权威期刊(TASLP等)的审稿人,多次担任国际顶级学术会议(ACL、COLING、IJCAI、AAAI)的程序委员会委员,担任COLING-20的出版主席。作为负责人和参与人员,主持和参与国家自然基金、科技部重点研发计划和中国科学院先导计划等多项国家项目。

宗成庆,中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授(A类),中国人工智能学会会士和中国计算机学会会士。主要从事自然语言处理、机器翻译和语言认知计算等研究,主持国家项目10余项,发表论文200余篇,出版《统计自然语言处理》等专著三部和译著一部,是国际计算语言学委员会(ICCL)委员、亚洲自然语言处理学会(AFNLP)主席和中国中文信息学会副理事长。曾任国际一流学术会议ACL 2015程序委员会主席和ACL 2021大会主席。曾荣获国家科技进步奖二等奖和北京市科学技术奖一等奖等,曾获北京市优秀教师、中国科学院优秀导师和宝钢优秀教师奖等若干荣誉,享受国务院特殊津贴。

大咖推荐

本书系统地介绍了神经机器翻译的基本原理、关键技术和实现方法,深入浅出,通俗易懂,是一部精品之作。译者长期从事机器翻译研究,对技术细节有清楚的了解,翻译质量高。特此向读者推荐。

——黄河燕   北京理工大学教授、博士生导师,人工智能研究院院长

神经机器翻译已经成为本领域国际主流方法。由一流的机器翻译专家翻译一流的机器翻译著作,可谓恰逢其时、相得益彰。这部巨著将成为机器翻译技术学习的宝鉴。

——赵铁军  哈尔滨工业大学教授、博士生导师

本书是著名机

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值