[文献阅读]——Improving Language Understanding by Generative Pre-Training

最新推荐文章于 2024-04-23 17:12:58 发布

Muasci

最新推荐文章于 2024-04-23 17:12:58 发布

阅读量624

点赞数

分类专栏：文献阅读之家

本文链接：https://blog.csdn.net/jokerxsy/article/details/116086639

版权

文献阅读之家专栏收录该内容

51 篇文章 4 订阅

订阅专栏

引言

工作的意义：

由于标注数据的缺少，能够直接从未标注数据中提取语言学信息的模型十分重要
实验表明，在大量的有监督任务中，引入无监督信息能够带来性能的提升（word embedding）

比word-level更高级别的信息不容易被提取:

优化函数得不到统一，训练任务各异
大多都是task-specific，且使用了复杂的学习机制和联合学习目标，所以没有很好的迁移能力

本文的贡献:

提出了一种半监督方法，包括了无监督的pretraining和有监督的finetuning
实验了不同的下游任务，和zero-shot的表现，证明效果好

模型

无监督的预训练

在这里插入图片描述
个人理解(不是很懂):对于第i个位置，把前k个单词组成的序列输入到transformer，然后得到预测向量（词表大小），表示第i个位置的单词是哪一个

有监督的微调

每一个训练实例由 1. 单词序列 2. 标签组成，把单词序列输入到transformer中，取出最后一个单词的隐藏层向量作为序列的向量表示，然后经过一个标签层和softmax来得到预测的标签概率分布，计算loss
在这里插入图片描述
在微调过程中，把LM objective作为联合的训练目标，能够:1. 提高见度模型的泛化能力 2. 加快收敛

不同任务的输入

Text classification: 单个句子
natural language inference(textual entailment) : [p;delim;h]
similarity:[A;delim;B] & [B;delim;A]，分别得到两个隐藏层，然后做element-wise addition
QA & Commonsense Reasoning：有三个需要输入的：
- document z
- question q
- 许多可能的answers(a1,a2,a3…)
  输入1: [z;q;delim;a1]
  输入2: [z;q;delim;a2]
  每一个输出一个分数，最后做softmax，选择分数最大的那一个

实验

略

分析

zero-shot:
作者的思路:生成式预训练模型（GPT）为什么有效？——预训练好的模型能够提升模型在下游任务上的语言建模能力，而transformer更加结构化的注意力记忆能够帮助模型更好的迁移

实验结论:LSTM在zero-shot中有更大的方差，而transformer能够带来更有效的归纳偏置（inductive bias）
在这里插入图片描述

Muasci

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[文献阅读]——Improving Language Understanding by Generative Pre-Training

目录引言相关工作半监督学习无监督预训练联合训练目标模型无监督的预训练有监督的微调不同任务的输入实验引言工作的意义：由于标注数据的缺少，能够直接从未标注数据中提取语言学信息的模型十分重要实验表明，在大量的有监督任务中，引入无监督信息能够带来性能的提升（word embedding）比word-level更高级别的信息不容易被提取:优化函数得不到统一，训练任务各异大多都是task-specific，且使用了复杂的学习机制和联合学习目标，所以没有很好的迁移能力本文的贡献:提出了一种半监
复制链接

扫一扫