- 博客(1)
- 收藏
- 关注
原创 人工智能之注意力模型
从而对较长的句子也能有很好的翻译效果。这些参数决定了编码网络中各时间步的激活值在组成输入c时的占比,可能有些激活值的占比为0,例如在生成英语单词jane时,可能除了α外α外其它α参数都为0,因为只需要第1和第2个法语单词就可以确定第1个英语单词是jane了。从上面的两个公式也可以看出,参数α决定了编码网络中某个时间步是否起作用,例如,如果第3个时间步关联的参数α为0的话,那么参数α与激活值a的乘积就为0,也就是说,在生成c时会忽略掉激活值a。
2020-01-04 05:33:46 6276 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人