sequence generation
每一步随机采样下一词
conditional sequence generation
dynamic sequence generation(attention)
encoder可能无法将所有输入都压缩到一个vector中
之前decoder每一步的输入都是一样的,现在让decoder每一步自己选择需要输入的信息
tips
transformer
多义词如何解决?
ELMO
每一个词得到多个embedding,然后将这个多个embedding加权相加,其中的加权参数是通过整个任务学习出来的
BERT
输入一个句子,通过bert得到该句子的embedding
bert的输入句子的长度都不一样 是怎么学习参数的?
对不同词语使用同样的参数 并不是每个词都有一个对应参数 类似RNN 重复使用一套参数
self-attention可以堆叠很多层
ERNIE
GPT
Bert是transformer的encoder,GPT是transformer的decoder
只和已经产生的词进行attention