爬在NLP的大道上——Question Answering Infused Pre-training of General-Purpose Contextualized Representations

blackli7

于 2021-09-17 11:41:57 发布

阅读量256

点赞数

分类专栏： QA/IR 文章标签：自然语言处理深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42392668/article/details/120344865

版权

QA/IR 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

QuIP

Motivation：

论文地址：https://arxiv.org/pdf/2106.08190.pdf

Motivation：

传统的预训练方式都是基于上下文信息理解的（BERTs），能否考虑改变这一种方式，使用问答的形式来训练模型（原文中未说明灵感来源，笔者估计可能与QA任务近年的发展，以及从人类学习方式中的观察有关）

Method：

（核心方法）预训练阶段在使用RoBERTa representation的基础上，通过大量的QA pairs数据对模型进行预训练：

其中，q侧使用两个MLP模型（start，end）对CLS进行表示，p侧使用token-level级embedding表示。
训练目标是进行如下预测：对于给定q，在文本c中找到answer对应的start与end位置
同时引入知识蒸馏的方法，总体预训练的Loss为：
2. 这种预训练模型在论文中被实现证明在四种下游任务中有效：
1）paraphrase排序：通过计算候选句和目标局的向量相似度来实现
2）paraphrase分类：对输入的句子对在最后八层的网络输出进行logistics回归
3）命名体识别：通过问题（what is …?）初始化embedding，再对embedding在相应数据集上进行fine tuning（与4）相似）
4）zero-shot情感分类：通过对相应问题（why is … good?）进行回答的方式进行：

Tips：

以QA任务为灵感，直接改变了预训练方法

Results：

在所述的四项任务的官方数据集（SQuAD、WMT、CoNLL等）上的zero-shot/few-shot的表现都达到了SOTA

My Thoughts：

论文证明了使用这种QA的pre-training的方法效果还行，且在相关任务的zero-shot/few-shot表现上很突出
比较关心这种方法的embedding质量检测和效率实验（论文中未展示，速度应该会慢，但具体慢多少？）

（ps：本文图片均来自于原paper，侵删）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。