百度孙宇：百度语义理解技术ERNIE及其应用

最新推荐文章于 2024-05-29 17:16:49 发布

「已注销」

最新推荐文章于 2024-05-29 17:16:49 发布

阅读量3.4k

点赞数

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/106990805

版权

百度杰出架构师孙宇分享了百度语义理解技术ERNIE的进展和应用，该技术通过知识增强预训练，实现了在16个任务上的最佳效果。ERNIE广泛应用于百度的核心产品，如搜索、信息流、智能客服等，未来将继续发展语义理解的前沿技术。

摘要由CSDN通过智能技术生成

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年6月20日，第16期“AI未来说·青年学术论坛”NLP前沿技术及产业化线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。百度孙宇带来报告《百度语义理解技术ERNIE及其应用》。

百度孙宇的报告视频

孙宇，百度杰出架构师，百度语义理解技术与平台ERNIE负责人。从事语义理解领域研究与应用近10年，取得了多项世界领先成果，相关工作广泛应用于百度搜索、百度信息流、小度音箱、智能客服等产品，在AAAI、IJCAI等人工智能顶级国际会议发表多篇高水平学术论文，已授权或公开的国内外专利60余项，荣获中国电子学会科技进步一等奖、中国人工智能学会优秀科技成果奖、百度最高奖及百度骄傲最佳团队等奖项。

报告内容：近年来，预训练技术在自然语言处理领域发展迅速，并获得广泛应用。2019年，百度NLP研发了基于知识增强的语义理解技术ERNIE，创新性地将大数据预训练与多源丰富知识相结合，研发持续学习算法，不断吸收海量文本数据中词汇、结构、语义等方面的新知识，实现模型效果不断进化，在有代表性的中英文16个任务上取得国际上最好的结果。ERNIE技术广泛落地百度核心业务，取得了显著应用效果。本次报告主要包含百度ERNIE的技术进展、应用情况以及未来发展方向。

百度语义理解技术ERNIE及其应用

孙宇老师首先介绍了语义表示的基础知识与已有方法。他认为语义理解是NLP终极目标之一，并介绍了语义表示学习的符号化表示方法和数学化表示方法。然后他展示了自2003年起至今NLP领域预训练模型的发展，包括2003年Bengio通过神经网络语言模型方法学习神经网络的语言模型，2013年Google提出的Word2vec语言模型算法,2014年斯坦福大学提出的通过全局词频统计表示词向量的Glove模型，以及2018年左右利用Transformer的深度语言学习模型，以及大名鼎鼎的BERT方法提出的上下文相关模型，2019年语义表示学习预训练工作百花齐放，百度提出了ERNIE方法使用知识增强方式做语义表示学习，在GLUE通用语言理解数据集中得到了目前最好的效果，突破90分。

接着孙宇老师介绍了ERNIE系列工作的原理和技术布局。在展示的百度ERNIE基于预训练语义理解方法技术和平台全景图中，首先包含基础技术，如词向量模型、句段模型、篇章模型；基于通用基础之上，构建如文本生成任务等面向应用任务的预训练语义表示方法和技术，再基于此进行面向金融、法律等行业技术的研究。与此同时，为了技术更好的落地，百度也进行了很多模型轻量化、蒸馏、结构化搜索的探索，并展开面向未来的前沿探索，如视觉语言多模态语义理解，基于图的表示和理解等。基于核心技术，百度还构建了很多开源的工具和平台，帮助前沿技术真正应用于产品。

百度ERNIE技术发展脉络

孙宇老师还介绍了百度ERNIE技术的发展脉络。2019年3月提出ERNIE的思路与技术，中文方面超过BERT效果，同年7月份提出ERNIE2.0方法，在中英文全面领先了当时世界最好效果，同年11月对业界发布语义理解开发套件，实现技术到产品的转化。今年3月份，ERNIE在SemEval上拿到五项冠军，5月份又对ERNIE开发套件做了全新的升级，能够让开发者使用动态图的方式使用ERNIE。

接着，孙宇老师介绍了ERNIE技术的具体细节。首先，对BERT，Transformer等模型进行简要介绍，并指出BERT模型掩盖字的方式只能聚焦在局部语言信号上的缺点，而ERNIE通过掩盖词、实体、短语，十分精巧地进行了知识的表示与学习，能够进行全局的学习，在中英文中都取得了很好的效果。在ERNIE2.0中持续学习语义理解框架中，通过引入模型知识，学习新知识不遗忘旧知识，通过大数据构建一系列语言生成任务，增量式加入多任务学习器里，不断学习模型、更新模型，用模型再监督构建预训练任务。孙宇老师列举了一些有趣的能给效果带来较大提升的预训练任务，如语序学习、句子语义相似性学习，逻辑推理学习等，最终ERNIE2.0取得了SOTA。另外，在语言生成方面，百度通过多流机制完整语义片断预训练模型去做语言生成的任务，采用了两个重要思路，一个是采用填充式生成，缓解基于上文预测的依赖问题，二是完整语义片段生成（span-by-span），一段段地生成文本。之后，老师又简要介绍了面向具体领域的工作，面向图结构的语义理解，以及模型轻量化的工作。

ERNIE领域模型

另外，孙宇老师还分享了在创新技术上一些落地平台化的思考，他认为BERT、ERIIE等预训练模型方法是非常通用型的技术，在具有显著效果的同时，可以进行更简单的标准化应用，这是一种新的模式，并可能是未来NLP研发的主流，即Pre—training和Fine—tuning，基于大量数据进行预训练，然后基于小规模数据Fine—tuning，从而得到非常好的效果，进而为开发者、企业、工业界带来一个契机，降低NLP训练成本。

最后，孙宇老师介绍了投入大量精力构建的开源工具集，将ERNIE预训练技术、模型和算法，以及ERNIE蒸馏、高性能部署等全部集成到工具箱中，并将工具箱集成到百度的AI开发平台，为数据处理、模型训练、评估、部署一系列环节提供一整套的服务。老师提供了ERNIE的开源地址，以及相关的交流群和公众号，提供了解ERNIE技术、原理、工具、产品的窗口，方便同学们的研究学习。

（整理人：张熙、李琳）

AI未来说*青年学术论坛

第一期数据挖掘专场

1. 李国杰院士：理性认识人工智能的“头雁”作用

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
百度孙宇：百度语义理解技术ERNIE及其应用

不到现场，照样看最干货的学术报告！嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现...
复制链接

扫一扫