点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”
作者:Pavel Gladkov
编译:ronghuaiyang
导读
EMNLP 2019中一些和BERT相关的很不错的论文。
BERT at EMNLP 2019
自然语言处理的经验方法会议(EMNLP)于 2019 年 11 月 3 日至 11 月 7 日在香港举行。有很多有趣的论文,但我想强调一下 BERT 的论文。
揭露 BERT 的黑暗秘密
http://arxiv.org/abs/1908.08593
在这篇论文中,来自马萨诸塞大学洛厄尔分校的研究人员研究了 BERT 的 layer 和 head 的自我注意机制。用到的数据集是 GLUE 任务的子集:MRPC、STS-B、SST-2、QQP、RTE、QNLI、MNLI。
实验:
BERT 中特定关系的 head
fine-tuning 之后自注意力模式的改变
语言特征的注意力机制
Token-to-token 的注意力机制
关闭 head 的自注意力机制
有趣的发现:
BERT 模型明显参数化过度。在不同的 head 中有限的注意力模式是有重复的。因此,禁用某些 head 并不会导致准确率下降,而是会提高性能。
很有趣。这就是为什么 distilling BERT 是有意义的。
可视化和理解 BERT 的有效性
http://arxiv.org/abs/1908.05620
这是另一篇关于用微软研究院的很酷的可视化工具来理解 BERT 的性能的论文。
在四个数据集上从头开始训练的训练损失曲面(顶部)和对BERT进行finetune的训练损失曲面(底部)。 与随机初始化相比,预训练可以得到更泛化的优化,并简化了优化过程。上图清晰地展示了本文的主要思想:
finetune BERT 的训练损失沿优化方向呈单调递减趋势,有利于优化,加速训练收敛
finetune 过程对过拟合更加鲁棒
预训练模型可以获得更平更宽的优化值
所以,不要从头开始训练 BERT 完成你的任务。finetune 更好。
用耐心的知识蒸馏来对 BERT 模型进行压缩
http://arxiv.org/abs/1908.09355
微软还有一篇关于知识蒸馏的论文。提出了一种通过耐心的知识蒸馏将大 BERT 模型压缩成浅 BERT 模型的新方法。该方法声称是第一个使用蒸馏的方法,不仅用于输出分布,而且用于“教师”的隐藏状态。此外,“student”只尝试模仿[CLS] token 的表示形式。与其它蒸馏方法相比,BERT-PKD 比 DistilBERT 好,但比 TinyBERT 差。
Sentence-BERT:使用 Siamese BERT-Networks 来得到句子嵌入
http://arxiv.org/abs/1908.10084
Code: https://github.com/UKPLab/sentence-transformers
问题如下:BERT 的嵌入是否适合语义相似度搜索?本文证明了 BERT 可以开箱即用的将句子映射到一个向量空间,而这个向量空间不太适合用于余弦相似度等常见的相似度度量。其性能比一般的 GloVe 嵌入差。为了克服这一缺点,提出了 Sentence-BERT (SBERT)。SBERT 在 siamese 或 triplet 网络架构中对 BERT 进行了 finetune。
具有分类目标函数的SBERT架构,例如用于对SNLI数据集进行finetune。 两个BERT网络都有各自的权值(siamese网络结构)。Beto, Bentz, Becas: BERT 惊人的跨语言有效性
http://arxiv.org/abs/1904.09077
本文探讨了多语言 BERT 作为一种零距离语言迁移模型的跨语言潜能。
长话短说:BERT 有效地学习了良好的多语言表示,在各种任务中具有很强的跨语言零样本的迁移性能。
—END—
英文原文:https://towardsdatascience.com/bert-at-emnlp-2019-46db6c2e59b2
备注:公众号菜单包含了整理了一本AI小抄,非常适合在通勤路上用学习。
往期精彩回顾
2019年公众号文章精选适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(第一部分)备注:加入本站微信群或者qq群,请回复“加群”加入知识星球(4500+用户,ID:92416895),请回复“知识星球”
喜欢文章,点个在看