Keras梯度累积优化器:用时间换取效果

现在Keras中你也可以用小的batch size实现大batch size的效果了——只要你愿意花nn倍的时间,可以达到nn倍batch size的效果,而不需要增加显

1、名词解释:

NPL:在一两年之前,NLP (Natural Language Processing) 是人工智能(AI)的一个子领域。

OOM:Out-Of-Memory 表示内存溢出

           CV:关于计算机视觉(ComputerVision, CV)

Bert:Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder。

GPT-2:“Generative Pretrained Transformer 2”的简称,即生成预训练Transformer

XLNET:广义自回归方法XLNET,它既利用了AR语言建模的优点,又避免了AE的局限性。

fine-tuning :是一个trick(技巧),在迁移学习中有所涉及,但不仅仅出现在迁移学习中,指对参数进行微调。

Seq2Seq:模型是RNN最重要的一个变种:N vs M(输入与输出序列长度不同),这种结构又叫Encoder-Decoder模型。

attention机制:又称为注意力机制,顾名思义,是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一 个完整的模型,应当是一种技术,能够作用于任何序列模型中。

Transformer:就是一个升级版的seq2seq,也是由一个encoder(编码器)和一个decoder(解码器)组成的。

2、遇到的问题

做NLP任务都不用怎么担心OOM问题,因为相比

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值