近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】

最新推荐文章于 2021-06-23 15:18:20 发布

zenRRan

最新推荐文章于 2021-06-23 15:18:20 发布

阅读量598

点赞数

文章标签：机器学习人工智能深度学习算法计算机视觉

原文链接：https://openreview.net/group?id=ICLR.cc/2021/Conference

版权

导读

本期的关注焦点是【模型压缩】&【预训练】的7篇论文。点击文末“阅读原文”，获取正在接受盲审的论文列表。

模型压缩

Task-Agnostic and Adaptive-Size BERT Compression

本文的目标是通过压缩可以得到模型对不同大小和延迟的限制下的小模型；另外压缩后的模型是任务不可知（task agnostic）即对所有的下游任务都是通用的。为了实现这个目标，本文使用的方法是基于NAS架构搜索的方法，由于待搜索的空间非常大，对于预训练任务难度较大，本文提供了3种策略来优化。

论文链接: https://openreview.net/forum?id=wZ4yWvQ_g2y&noteId=wZ4yWvQ_g2y

Data-Aware Low-Rank Compression for Large NLP Models

本文的目标是对BERT模型中最为占用时间部分，即矩阵乘法进行优化。基于一个观察，权重矩阵本身并不是低秩矩阵，但是每一层的表示（输出）却是处于低维空间。基于这个观察本文提出了DRONE方法，通过最小化表示输出的误差而不是单纯的权重矩阵的误差，来对权重矩阵进行分解。

论文链接：https://openreview.net/forum?id=_sSHg203jSu

Speeding up Deep Learning Training by Sharing Weights and then Unsharing

本文的目标是解决深度模型中提升模型深度带来的计算复杂度提高的问题，主要针对模型中存在多个重复结构的情况，本文中则是以BERT中的transformer结构为例。本文采用的方法是首先共享所有重复结构的权重，然后达到一定条件下解除共享。

论文链接：https://openreview.net/forum?id=jz7tDvX6XYR

Dact-BERT: Increasing the Efficiency and Interpretability of BERT by Using Adaptive Computation Time

本文的目标是缩短大模型的预测阶段的耗时。本文以BERT为基础，在BERT模型中加了一个DACT结构，最终学习出来在预测节点所需要的模型深度（numbert of transformers blocks）。DACT结构原本是用于在视觉推理任务中，目标是来选择一个合适的推理的中间steps。本文将DACT结构融入BERT的transformer block中间，直接学习什么时候就可以达到预测的标准，那么在预测阶段只需要这部分子结构就可以完成预测的任务。

论文链接：https://openreview.net/forum?id=wKfXaxPist

预训练

DeBERTa: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION

本文对现有的BERT模型做了改进。一组词的 Attention 不光取决于内容，还和它们的相对位置有关（比如 deep learning 挨在一起时的依赖关系比不在一起时要强）。解决预训练和精调的不匹配问题（精调时没有 MASK）。文中提出了两类策略，Disentangled Attention：增加计算 “位置-内容” 和 “内容-位置” 注意力。Enhanced Mask Decoder：用 EMD 来代替原 BERT 的 SoftMax 层预测遮盖的 Token。

论文链接：https://openreview.net/forum?id=XPZIaotutsD

SCoRe: Pre-Training for Context Representation in Conversational Semantic Parsing

为了将自然语言对话转为成形式化语言，CSP系统需要在描述对话的多回合动态变化的同时，对非结构化语言和结构化本体之间的关系进行建模。本文提出了一种新的用于CSP任务的训练方法，旨在获得表示以捕捉对话流与结构化上下文的一致性。

论文链接：https://openreview.net/forum?id=5ip8nV7F4Qn

K-PLUG: KNOWLEDGE-INJECTED PRE-TRAINED LANGUAGE MODEL FOR NATURAL LANGUAGE UNDERSTANDING AND GENERATION

虽然PLM已经在众多NLP任务中证明了有效性，但他们中的大多数并没有明确地学习特定领域的知识。在本文中，我们提出了K-PLUG，一种基于编解码转换器的知识注入的预训练语言模型，它既适用于自然语言理解任务，也适用于生成任务。具体来说，我们提出了五个具有知识意识的自我监督的预训练目标，以实现特定领域的知识学习。

论文链接：https://openreview.net/forum?id=5WcLI0e3cAY

来自：RUC AI BOX

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

后台回复【五件套】
下载二：南大模式识别PPT

后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易，还望给个在看！

zenRRan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】

导读本期的关注焦点是【模型压缩】&【预训练】的7篇论文。点击文末“阅读原文”，获取正在接受盲审的论文列表。模型压缩Task-Agnostic and Adaptive-Size ...
复制链接

扫一扫