每日一书丨为什么自然语言是“人工智能皇冠上的明珠”呢

最新推荐文章于 2024-09-02 16:21:46 发布

每日一书

最新推荐文章于 2024-09-02 16:21:46 发布

阅读量2.1k

点赞数 1

分类专栏：每日一书文章标签：人工智能自然语言处理 nlp

原文链接：https://mp.weixin.qq.com/s?src=11&timestamp=1639548746&ver=3497&signature=yn91QLLY-Wu17TT1AkR*WROCl06ds8J3cqvDPvEtAsL3i3JbPQw0XNebbPcLWlumRY-Yq7xNMqyY2Inh5tfr6MAB51HdPf4p94ScCTPgzcZJnQeOgcKwFDl-iC8ADIos&new=1

版权

每日一书专栏收录该内容

61 篇文章

订阅专栏

自然语言处理被誉为“人工智能皇冠上的明珠”!

深度学习等技术的引入为自然语言处理技术带来了一场革命，近年来也出现了自然语言处理的新范式。

为什么自然语言是“人工智能皇冠上的明珠”呢？

自然语言处理，英文名称是Natural Language Processing，简称NLP，主要研究用计算机来理解和生成自然语言的各种理论和方法。

其中，自然语言指的是人类语言，特指文本符号，而非语音信号。对语音信号的识别与合成属于语音处理领域的研究范畴。

自然语言处理已经产生了很多实际的应用，如机器翻译、手机中的智能助手、文本校对等等。

包括多位图灵奖得主在内的多位知名学者都表示了对自然语言处理的极大关注。甚至图灵本人，也将验证机器是否具有智能的手段—“图灵测试”，设定为通过自然语言进行人机对话的场景。

可以说，只要涉及到文本的智能化处理，都离不开自然语言处理技术。然而，目前这些应用给用户的体验并不好，还远远没有达到人们的期待。这是什么原因呢？

这主要是由于自然语言处理属于认知智能任务，而认知智能是人类和动物的主要区别之一，需要更强的抽象和推理能力才能实现。通俗地讲，就是自然语言处理太难了！

那么，自然语言处理到底难在哪呢？

我们通过一个例子来看一下。

这是领导和阿呆的对话，其中有很多的“意思”，它们又有很多不同的意思。这体现了自然语言具有非常严重的歧义性的特点。

除了歧义性外，自然语言还具有高度的抽象性、近乎无穷变化的语义组合性、无处不在的进化性、非规范性、主观性、知识性、难移植性等八个主要特点。

以上这些难点和特点为自然语言处理带来了极大的挑战，并使自然语言处理成为目前制约人工智能取得更大突破和更广泛应用的瓶颈之一。

如今，自然语言处理的新范式是什么呢？

经过60余年的发展，人们已经研发了各种各样自然语言处理技术，这些纷繁复杂的技术本质上都是在试图回答一个问题：语义在计算机内部是如何表示的？

根据表示方法的不同，自然语言处理技术共经历了四次范式变迁，分别是小规模专家知识、大规模语料库统计模型、大规模语料库深度学习和大规模预训练语言模型。

特别是在2010 年之后，随着基于深度神经网络的表示学习方法（也称深度学习）的兴起，该方法直接端到端地学习各种自然语言处理任务，不再依赖人工设计的特征。

深度学习可以有效地避免统计学习方法中的人工特征提取操作，自动地发现对于目标任务有效的表示。在语音识别、计算机视觉等领域，深度学习已经取得了目前最好的效果，在自然语言处理领域，深度学习同样引发了一系列的变革。

虽然深度学习技术大幅提高了自然语言处理系统的准确率，但是基于深度学习的算法有一个致命的缺点，就是过度依赖于大规模有标注数据。

由于自然语言处理这一认知类任务所具有的“主观性”特点，以及其所面对的任务和领域众多，使得标注大规模语料库的时间过长，人力成本过于高昂，因此自然语言处理的标注数据往往不够充足，很难满足深度学习模型训练的需要。

早期的静态词向量预训练模型，以及后来的动态词向量预训练模型，特别是2018 年以来，以 BERT、GPT 为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点，帮助自然语言处理取得了一系列的突破。

所以，这种预训练 + 精调的模式，已经成为了自然语言处理的新范式。

所谓模型预训练（Pre-train），即首先在一个原任务上预先训练一个初始模型，然后在下游任务（也称目标任务）上继续对该模型进行精调（Fine-tune），从而达到提高下游任务准确率的目的。

为了能够刻画大规模数据中复杂的语言现象，还要求所使用的深度学习模型容量足够大。基于自注意力的 Transformer 模型显著地提升了对于自然语言的建模能力，是近年来具有里程碑意义的进展之一。

可以说，超大规模预训练语言模型完全依赖“蛮力”，在大数据、大模型和大算力的加持下，使自然语言处理取得了长足的进步。

那么，预训练模型是如何获得如此强大威力甚至是“魔力”的呢？

由车万翔老师等所著的《自然语言处理：基于预训练模型的方法》一书从预训练模型的角度对这两次重要的发展进行了系统性的论述，能够帮助读者深入理解这些技术背后的原理、相互之间的联系以及潜在的局限性，对于当前学术界和工业界的相关研究与应用都具有重要的价值。

内容概览

本书内容分为三部分：基础知识、预训练词向量和预训练模型。

第1部分：基础知识。包括第2～4 章，主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集。

第2部分：预训练词向量。包括第5、6 章，主要介绍静态词向量和动态词向量两种词向量的预训练方法及应用。

第3部分：预训练模型。包括第7～9 章，首先介绍几种典型的预训练语言模型及应用，其次介绍目前预训练语言模型的最新进展及融入更多模态的预训练模型。

本书特色

1. 结合具体案例讲解模型方法

2. 各类结构图、模型图全彩印刷，一目了然

3. 配套资源齐备

为了便于大家更好地学习，本书配备了丰富的学习资源，包括实践案例源代码、课后习题答案及PPT。此外，还有读者群供大家与作者随时交流！

适读人群

本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者，以及希望深入研究自然语言处理算法的计算机工程师阅读，也适合对人工智能、深度学习和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。

权威作者

车万翔

博士，哈尔滨工业大学计算学部长聘教授、博士生导师，社会计算与信息检索研究中心副主任。教育部青年长江学者，黑龙江省"龙江学者"青年学者，斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会（AACL）执委兼秘书长;中国计算机学会高级会员。在ACL、EMNLP、AAAl、IJCAl等国内外高水平期刊和会议上发表学术论文50 余篇，其中AAAl2013年的文章获得了最佳论文提名奖，论文累计被引用4，600余次（Google Scholar数据），H-index值为37。出版教材2部，译著2部。目前承担2030"新一代人工智能"重大项目课题、国家自然科学基金等多项科研项目。负责研发的语言技术平台（LTP）已被600余家单位共享，提供的在线"语言云"服务已有用户1万余人，并授权给百度、腾讯、华为等公司使用。2018、2019连续两年获CoNLL国际评测第1名。2020年获黑龙江省青年科技奖;2015、2016连续两年获Google Focused Research Award（谷歌专注研究奖）;2016年获黑龙江省科技进步一等奖（排名第2）;2012年获黑龙江省技术发明奖二等奖（排名第2）;2010年获中国中文信息学会"钱伟长"中文信息处理科学技术奖一等奖（排名第2）、首届汉王青年创新奖（个人）等多项奖励。2017年，所主讲的MOOC课程《高级语言程序设计（Python）》获国家精品在线开放课程。

郭江

麻省理工学院计算机科学与人工智能实验室，博士后研究员。毕业于哈尔滨工业大学社会计算与信息检索研究中心，约翰斯·霍普金斯大学联合培养博士，研究方向为自然语言处理与机器学习。在人工智能、自然语言处理领域国际重要会议及期刊（如ACL、EMNLP、AAAI等）发表论文20余篇。是被业界广泛应用的中文语言技术平台LTP 的主要研发者之一。2015年，获百度奖学金;2018年，获中文信息学会"优秀博士学位论文"提名奖。

崔一鸣

科大讯飞北京研究院副院长、资深级主管研究员。毕业于哈尔滨工业大学，获工学学士和硕士学位，并继续攻读博士学位。主要从事阅读理解、预训练模型等自然语言处理相关领域的核心技术研究工作，致力于推动中文机器阅读理解和中文预训练模型的研究与发展。曾多次获得机器翻译、机器阅读理解、自然语言理解评测冠军，其中包括机器阅读理解权威评测SQuAD、自然语言理解权威评测GLUE 等。所研制的中文阅读理解及预训练模型开源项目被业界广泛应用，在GitHub累计获得1万以上星标，HuggingFace平台月均调用量达到100万次。发表学术论文30余篇（包括ACL、EMINLP、AAA等高水平论文），申请发明专利20余项。担任EMNLP 2021和NLPCC 2021领域主席，担任NLP和Al领域顶级国际会议和国际ESI期刊审稿人职务。

专家力荐

"本书的一大特色是含有丰富的实践内容。作者均为活跃在科研一线的青年学者，极具实战经验。书中为代表性的模型提供了规范的示例代码以及实践指导，这对于刚刚进入自然语言处理领域并热爱实践与应用的读者而言是一份难得的学习资源。

——孙茂松教授，欧洲科学院外籍院士、清华大学人工智能研究院常务副院长

自然语言处理被誉为"人工智能皇冠上的明珠"。近年来，以BERT、GPT 为代表的大规模预训练语言模型异军突起，使问答、检索、摘要、阅读理解等自然语言处理任务性能都得到了显著提升。《自然语言处理∶基于预训练模型的方法》一书深入浅出地阐述了预训练语言模型技术，全面深入地分析了它的发展方向，非常适合人工智能和自然语言处理领域的学习者和从事研发的人士阅读。读者可在较短的时间内了解和掌握其关键技术并快速上手。特此准荐!

——周明，创新工场首席科学家，创新工场首席科学家微软亚洲研究院原副院长中国计算机学会副理事长，国际计算语言学会（ACL）主席（2019年）

预训练语言模型是当今自然语言处理的核心技术。车万翔教授等人所著的本书从基础知识、预训练词向量、预训练模型等几个方面全面系统地介绍了该项技术。选题合理，立论明确，讲述清晰，出版及时。相信每一位读者都会从中获得很大的收获。向大家推荐!

——李航，ACL/IEEE Fellow 字节跳动人工智能实验室总监

在运动智能和感知智能突飞猛进的发展态势下，以自然语言处理为核心的认知智能已成为人工智能极大的挑战。随着业界对认知智能重视程度的持续提升，基于预训练模型的自然语言处理方法一经提出，便快速席卷了诸多NLP 任务。本书系统地介绍了该类方法，并配套了丰富的实践案例和代码，对于从事A技术研究和相关行业的爱好者而言，是一本不可多得的参考学习佳作!

——胡郁，科大讯飞执行总裁

声明：本文转自“AINLP”公众号。

点击「链接」或「扫码」，《新程序员003》抢先看