[文献阅读]——Improving Language Understanding by Generative Pre-Training

引言

工作的意义:

  • 由于标注数据的缺少,能够直接从未标注数据中提取语言学信息的模型十分重要
  • 实验表明,在大量的有监督任务中,引入无监督信息能够带来性能的提升(word embedding)

比word-level更高级别的信息不容易被提取:

  • 优化函数得不到统一,训练任务各异
  • 大多都是task-specific,且使用了复杂的学习机制和联合学习目标,所以没有很好的迁移能力

本文的贡献:

  • 提出了一种半监督方法,包括了无监督的pretraining和有监督的finetuning
  • 实验了不同的下游任务,和zero-shot的表现,证明效果好

相关工作

半监督学习

word embeddings trained on unlabeled corpora
phrase-level
sentence-level

无监督预训练

Unsupervised pre-training is a special case of semi-supervised learning where the goal is to find a good initialization point instead of modifying the supervised learning objective.(其实理解不了其中的差别,word embedding带来的不也是一个更好的初始化吗?)

先前的工作

  • 使用LSTM模型,具有长距离依赖问题
  • 使用预训练模型得到的隐式向量作为联合的特征,同时又定义了深层的task-specific architecture,参数量巨大

本文的特点

  • 使用transformer
  • 基本不需要增加task-specific parameters

联合训练目标

增加联合的无监督训练目标是半监督学习的替代品(依然理解不了)

模型

无监督的预训练

在这里插入图片描述
个人理解(不是很懂):对于第i个位置,把前k个单词组成的序列输入到transformer,然后得到预测向量(词表大小),表示第i个位置的单词是哪一个

有监督的微调

每一个训练实例由 1. 单词序列 2. 标签 组成,把单词序列输入到transformer中,取出最后一个单词的隐藏层向量作为序列的向量表示,然后经过一个标签层和softmax来得到预测的标签概率分布,计算loss
在这里插入图片描述
在微调过程中,把LM objective作为联合的训练目标,能够:1. 提高见度模型的泛化能力 2. 加快收敛
在这里插入图片描述

不同任务的输入

  • Text classification: 单个句子
  • natural language inference(textual entailment) : [p;delim;h]
  • similarity:[A;delim;B] & [B;delim;A],分别得到两个隐藏层,然后做element-wise addition
  • QA & Commonsense Reasoning:有三个需要输入的:
    • document z
    • question q
    • 许多可能的answers(a1,a2,a3…)
      输入1: [z;q;delim;a1]
      输入2: [z;q;delim;a2]
      每一个输出一个分数,最后做softmax,选择分数最大的那一个

实验

分析

zero-shot:
作者的思路:生成式预训练模型(GPT)为什么有效?——预训练好的模型能够提升模型在下游任务上的语言建模能力,而transformer更加结构化的注意力记忆能够帮助模型更好的迁移

实验结论:LSTM在zero-shot中有更大的方差,而transformer能够带来更有效的归纳偏置(inductive bias)
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值