Transformer
kudou1994
这个作者很懒,什么都没留下…
展开
-
机器翻译 Transformer代码笔记
(未完)代码来源Github:kyubyong/transformer/tf1.2_legacy作者已更新较新版本tensorflow对应的transformer代码,本笔记基于老代码做笔记使用代码1:hyperparams.py 定义超参数文件# -*- coding: utf-8 -*-#/usr/bin/python2'''June 2017 by kyubyong park...原创 2019-08-05 04:18:21 · 4902 阅读 · 0 评论 -
tf.train.slice_input_producer()、tf.train.batch()、tf.train.shuffle_batch()函数
Tensorflow的数据读取机制:tensorflow中为了充分利用GPU,减少GPU等待数据的空闲时间,使用了两个线程分别执行数据读入和数据计算。具体来说就是使用一个线程源源不断的将硬盘中的图片数据读入到一个内存队列中,另一个线程负责计算任务,所需数据直接从内存队列中获取。tf在内存队列之前,还设立了一个文件名队列,文件名队列存放的是参与训练的文件名,要训练 N个epoch,则文件名队列...原创 2019-08-05 04:11:12 · 356 阅读 · 0 评论 -
机器翻译Transformer框架分析笔记 | Attention is all you need
个人笔记使用,记录简短,如果有人看到了这篇文章,请直接拉到本文最后,看参考的那几篇文章,写的比较好,一看就懂。〇、笔记中对Encoder-Decoder Attention理解有误此注意力中的输入Q K V其中K V应该是从编码器得到的输出乘以decoder子层随机初始化的W_K和W_V得到的Q是上一步self-attention的输出乘以decoder子层随机初始化的W_Q得到的注意:...原创 2019-08-10 06:02:18 · 2949 阅读 · 2 评论