一transformer
transformer encoder decoder 不用rnn 但是要有position coding 。输入向量的编码+position 编码放入
二 RNN
memory更新过程(ht)ht包含(ht-1)的信息也包含本时刻xt的信息
通过链式发展展开求Et对wr的导数。
编程
一transformer
transformer encoder decoder 不用rnn 但是要有position coding 。输入向量的编码+position 编码放入
二 RNN
memory更新过程(ht)ht包含(ht-1)的信息也包含本时刻xt的信息
通过链式发展展开求Et对wr的导数。
编程