PaddlePaddle升级解读 | 工业级中文 NLP 工具集PaddleNLP

飞桨PaddlePaddle

于 2019-05-11 17:52:15 发布

阅读量446

点赞数 1

文章标签：百度网络大数据编程语言机器学习

本文链接：https://blog.csdn.net/PaddlePaddle/article/details/93859985

版权

近年来随着大数据、深度学习等技术的快速发展，加之与自然语言处理技术密切结合，语言智能获得了持续的发展和突破，并越来越多地应用于各个行业。百度在自然语言处理技术方面，已有了十几年的技术累积和前瞻探索，并且不断将核心技术高效落地产业实践。

为了适应全面丰富的 NLP 任务，方便更多开发者灵活插拔尝试多种网络结构，并且让应用最快速达到工业级效果。

今年4月23日，百度正式开放了工业级中文 NLP 工具与预训练模型集——

PaddleNLP（nlp.baidu.com/homepage/nlptools）

PaddleNLP 将自然语言处理领域的多种模型用一套共享骨架代码实现，可大大减少开发者在开发过程中的重复工作。工具集拥有当前业内效果最好的中⽂语义表示模型和基于用户大数据训练的应用任务模型，模型源于产业实践，达到工业级的应用效果。

PaddleNLP 完全基 PaddlePaddle (www.paddlepaddle.org)开发。PaddlePaddle 是中国首个、也是目前国内唯一开源开放，集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台，其囊括支持面向真实场景应用、达到工业级应用效果的模型，并具备针对大规模数据场景的分布式训练能力、支持多种异构硬件的高速推理引擎。

PaddleNLP 提供依托于百度百亿级大数据的预训练模型，能够极大地方便 NLP 研究者和工程师快速应用。使用者可以用 PaddleNLP 快速实现文本分类、文本匹配、序列标注、阅读理解、智能对话等 NLP 任务的组网、建模和部署，而且可以直接使用百度开源工业级预训练模型进行快速应用。用户在极大地减少研究和开发成本的同时，也可以获得更好的基于工业实践的应用效果。

扎根产业实践，PaddleNLP 为了更好满足开发者需求

百度在十几年来一直扎根 NLP 技术的产业应用，通过在百度搜索、信息流、百科、贴吧、文库等内部场景的技术积累，加之对外的技术开放与应用，形成了一整套服务于产业实践的 NLP 技术方案。

除了保持技术先进，百度也不断关注开发者对 NLP 工具的具体需求，希望打造一个全面、易用、高效的开源 NLP 工具集，让 NLP 技术有更广泛的落地应用场景。

一个面向完整场景的 NLP 应用系统通常需要对众多 NLP 基础任务进行系统化集成方可完成搭建。与此同时，NLP 任务通常需要针对应用场景做适应性迁移，需要其具备充分的组网方案自由度且可高效率重训。更重要的是，NLP 任务需要通过大量细节调优以满足苛刻的应用需求，非工业级模型难以积累。而百度开源的 PaddleNLP 工具集恰恰是针对这些需求进行开发，能够覆盖丰富的 NLP 任务，具备灵活的应用适应性，并拥有优异的应用效果。

全面、灵活、高效，打造强大的 PaddleNLP

全面：涵盖应用任务和基础网络，提供丰富任务类型

PaddleNLP 基于十几年的技术积累，提供了全面丰富的中文处理任务，涵盖了文本分类、文本匹配、序列标注、语言表示等多种任务方向，可根据业务需求或实验需求快速选择相应的任务进行使用。

灵活：任务与网络解耦，网络灵活可插拔

PaddleNLP 工具集将任务与网络解耦，区分出应用任务层和基础网络层，同类型任务的不同网络可以实现灵活插拔和快速替换，方便开发者快速针对应用场景做适应性迁移。

高效：强大的工业化预训练模型，打造优异应用效果

拥有当前业内效果最好的中⽂语义表示模型和基于用户大数据训练的应⽤用任务模型，模型效果调整机制源于产业实践，模型应用效果更突出。

百度提供了大量工业化预训练模型，包括语义表示基础模型和基于任务的预训练模型。2019年3月，百度提出知识增强的语义表示模型 ERNIE（Enhanced Representation through kNowledge IntEgration），在包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上，均超越了语义表示模型 BERT 的效果。