【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

最新推荐文章于 2022-12-01 20:55:44 发布

cskywit

最新推荐文章于 2022-12-01 20:55:44 发布

阅读量824

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cskywit/article/details/88592132

版权

机器学习专栏收录该内容

96 篇文章 17 订阅

订阅专栏

本文是Facebook AI team发表在EMNLP2018，个人觉得比较有意思。文章主要目的是验证NLP领域做迁移学习的可行性，在多种NLP任务上进行sentence level的embedding，实验得出在NLI任务上进行预训练的表达在迁移学习的效果上是最好的，作者认为这是由于NLI任务使得句子向量中蕴含了句法或知识等对句子含义的理解。文章同时还探索了做NLI迁移学习的不同模型，实验表明BiLSTM-maxpooling作为编码器效果最好。文章用具体任务来做Sentence Representations预训练这种方式还是很自然也很有想法的。

(1)基本的NLI模型结构

训练这种模型通常有两种不同的方式：一种是基于句子的编码方式，显示的分离单个句子的编码，二是允许使用两句话编码的联合方法，即使用从一个句子到另一个句子的交叉特征或注意力。本文采用第一种

(2)encoder方案

本文使用的七种主流的encoder方案进行对比:

在后续的迁移任务中效果最好的是BiLSTM-MaxPooling，

但其中提到的Inner-attention和H ierarchical ConvNet architecture也很有意思，这里把结构图列出来：

(3)在不同的任务上证明了本文提出的NLI预训练进行迁移学习的可行性

(4)embedding size对效果的影响

可以看出增大embeding size对迁移学习的提升是有好处的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。