Attention BLEU机器翻译的评判,越高翻译的越好。 用attention改进seq to seq模型 c0 是前面H 所有状态的加权平均,c0也能知道前面所有信息。 利用c0和x1’做输入得到s1,s1和前面的所有h状态做align()得到一系列a1…am新的权重,然后再与状态h做加权平均。 attention 的时间复杂度o(mt)。 每条线对于一个a权重,越粗代表 两个状态越相似。 summary