谷歌最新模型pQRNN：效果接近BERT，参数量缩小300倍

最新推荐文章于 2020-11-21 05:18:21 发布

iFlyAI

最新推荐文章于 2020-11-21 05:18:21 发布

阅读量414

点赞数

分类专栏： RNN 人工智能文章标签：算法深度学习人工智能机器学习自然语言处理

本文链接：https://blog.csdn.net/iFlyAI/article/details/108977527

版权

人工智能同时被 2 个专栏收录

121 篇文章 7 订阅

订阅专栏

RNN

2 篇文章 0 订阅

订阅专栏

摘要:文本分类是NLP最常见的应用之一，有了BERT之后更是可以通过小批量数据精调达到不错的效果。但在对速度要求高、没有钱买GPU、移动设备部署的场景下，还是得用浅层网络。今天就跟大家介绍Google最近新出的一个模型—— ...

人工智能学习离不开实践的验证，推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

文本分类是NLP最常见的应用之一，有了BERT之后更是可以通过小批量数据精调达到不错的效果。但在对速度要求高、没有钱买GPU、移动设备部署的场景下，还是得用浅层网络。

今天就跟大家介绍Google最近新出的一个模型——pQRNN，只利用监督数据（无蒸馏），以约1/300的参数量达到了接近BERT的效果。pQRNN是Google去年更小模型PRADO的一个改进版本，下面从PRADO讲起，来看看它们是如何以小博大的叭。

pQRNN官方博客：

https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html

PRADO论文：

https://www.aclweb.org/anthology/D19-1506/

PRADO代码：

https://github.com/tensorflow/models/tree/master/research/sequence_projection

PRADO模型

Embedding

对于我们常用的NLP模型来说，Embedding词表往往是参数量占比较大的一块儿。中文如果选用字级别的词表，大概在一两万级别，词级别则会几万或者更大，还会出现OOV。英文多出了子词级别，但无论哪种粒度的划分都是存在缺点的：

太细了就对模型要求很高，单独的词也不具有太大意义，而太粗了又没法涵盖所有词汇。

这就需要我们在不同的任务上选取不同的粒度。PRADO的作者认为，对于文本分类这样的简单任务，很多词汇是和任务无关的，比如 a, the等。另外，也不需要embedding可以准确的表示每个词，只需要大概表示出词所属的类目就可以了。比如在情感分析任务中，只需要让模型知道“超棒”和“太赞了”都是一个positive的词汇，而不用知道这两个词的区别在哪里，甚至用一个embedding去表示这两个词都是可以的。

下面是不同任务和细粒度词表示的相关性，对于语言模型和翻译任务，就需要准确地区分每个词：