小笔记
大琳琳爱吃鱼
这个作者很懒,什么都没留下…
展开
-
Attention机制的小理解
1.传统的encode-decode模型 输入序列: 输出序列: 中间语义变量 所以对于,也就是 这就表明输入序列的每一个元素对于输出序列的每一个元素的作用是等价的,这显然是不合理的。比如机器翻译中,中文“我爱你”,对应英语中“I love you”。其中“我”对于“I”和“love”的翻译作用力显然不同。为了解决...原创 2018-08-31 18:48:51 · 11432 阅读 · 0 评论 -
神经网络的小笔记
1.epoch和batch的区别a.epoch是指模型的迭代次数,每一个epoch是模型的一次迭代,使用整个数据集迭代一次b.batch发生在一次epoch中,指的是每次参数更新仅使用batch_size个训练样本。一次epoch需要进行batch_num次,每次用batch_size个样本进行更新(batch_num * batch_size = 训练集样本个数)2.dropout为...原创 2019-03-07 17:37:51 · 253 阅读 · 0 评论