关于GRUs和LSTMs的区别
GRU
绿色部分代表夸时间链接
值得注意的是h(t-1)其实包括了上轮的绿色部分
所有绿色部分会被累加的,这不太符合预期,可能会导致梯度爆炸或注意力固定
所以引入了重置门,即绿色部分
意味着有一些夸时间链接可以被削弱或放弃
这样一来
h(t-1)就专门对应连续时间链接
ht‘专门对应跨时间链接(虽然也包括连续时间,但希望的是跨时间)
h(t-1)是不是有点重复?也不能算重复,大概是为了更多的组合可能吧
LSTM
机器翻译的评价指标——BLUE
问题是翻译是一个很主观的事情,很难有一个量化评估手段。
BLUE的思想
由人工给出一份参考答案,然后看重叠性
所谓重叠性是由词长确定的,比如下图是BLUE3的示意图