paper
文章平均质量分 73
KazeHelloWorld
这个作者很懒,什么都没留下…
展开
-
Roberta
相较于Bert 改进版的RoBERTa到底改进了什么? 静态Masking vs 动态Masking with NSP vs without NSP 更大的mini-batch 原本的BERTbase 的batch size是256,训练1M个steps。RoBERTa的batch size为8k。 更多的数据,更长时间的训练 BPE编码 BPE ...原创 2021-08-27 21:33:47 · 104 阅读 · 0 评论 -
BERT
BERT 论文 代码 摘要 论文提出了新的语言表示模型(language representation model) BERT:Bidirectional Encoder Representations from Transformers 由无标注的文本,双向地训练得到,在多个下游任务fine-tune取得了很好的提升 Introduction pre-training 有两种 ELMo的feature-based和 GPT的fine-tune,BERT使用了fine-tune 并改进了 GPT 的单原创 2021-05-24 17:56:16 · 73 阅读 · 0 评论 -
GPT
Improving Language Understandingby Generative Pre-TrainingAbstractIntroductionRelated WorkFramework 论文 Abstract 本文为了解决自然语言理解任务,提出了pre-training和fine-tune模式,在无标注的文本中pre-training模型,再在具体任务中有标注地进行fine-tune,模型相比那些专门任务设计的模型,都展现了更好的效果 Introduction 大部分文本无标注,而标注会花费很原创 2021-05-21 16:11:21 · 51 阅读 · 0 评论 -
Attention Is All You Need
Attention Is All You Need 论文链接 摘要 论文提出了新的序列转换(sequence transduction)的transformer 模型,基于注意力机制(attention mechanisms),而非递归或卷积网络。根据机器翻译实验,模型更容易进行并行,并且训练地更快。28.4 BLEU on the WMT 2014 English-to-German translation task Introduction 前人工作基于Recurrent models,递归神经网络,在原创 2021-05-18 22:09:23 · 185 阅读 · 0 评论