现在Keras中你也可以用小的batch size实现大batch size的效果了——只要你愿意花nn倍的时间,可以达到nn倍batch size的效果,而不需要增加显。
1、名词解释:
NPL:在一两年之前,NLP (Natural Language Processing) 是人工智能(AI)的一个子领域。
OOM:Out-Of-Memory 表示内存溢出
CV:关于计算机视觉(ComputerVision, CV)
Bert:Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder。
GPT-2:“Generative Pretrained Transformer 2”的简称,即生成预训练Transformer
XLNET:广义自回归方法XLNET,它既利用了AR语言建模的优点,又避免了AE的局限性。
fine-tuning :是一个trick(技巧),在迁移学习中有所涉及,但不仅仅出现在迁移学习中,指对参数进行微调。
Seq2Seq:模型是RNN最重要的一个变种:N vs M(输入与输出序列长度不同),这种结构又叫Encoder-Decoder模型。
attention机制:又称为注意力机制,顾名思义,是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一 个完整的模型,应当是一种技术,能够作用于任何序列模型中。
Transformer:就是一个升级版的seq2seq,也是由一个encoder(编码器)和一个decoder(解码器)组成的。
2、遇到的问题
做NLP任务都不用怎么担心OOM问题,因为相比