NLP
文章平均质量分 93
jumpin_
一起学习交流鸭
展开
-
【深度学习】注意力机制
注意力机制之前接触到的seq2seq模型当中,解码器只依赖编码器最后一个时间步的隐藏状态作为解码器自身的初始隐藏状态。这个隐藏状态融合了所有输入序列的信息。注意力机制的提出与一个心理学问题相关,假如我们需要观察一个人是否在睡觉,输入我们大脑的是从我们视觉神经获取的一个人的图像。我们为了判断此人是否在睡觉,我们会习惯地去看他的眼睛是不是闭着的,也就是说,我们将更多的注意力集中在观察对方的眼睛上而不是对方的耳朵或是鼻子。第一段中提到的融合了所有输入序列的信息,就像是上段中提到的包含此人所有特征的图像。我们原创 2022-03-01 22:46:04 · 2349 阅读 · 0 评论 -
门控循环单元
门控循环单元经典的神经网络很难捕捉时间序列中时间间隔较长的依赖,因为通常会产生梯度消失或者梯度爆炸的现象,梯度消失更加常见。梯度裁剪虽然可以有效解决梯度爆炸的问题,但无法处理梯度消失。门控循环神经网络(gated recurrent neural network)的提出,解决了捕捉时间序列里时间距离较大的依赖关系。它通过可以学习的门来控制信息流动,门控神经单元是最常用的门控循环神经网络之一。在经典的RNN中,通常通过如下方式来计算隐藏状态和输出:Ht=ϕ(XtWxh+Ht−1Whh+bh)Ot=Ht原创 2022-02-23 17:26:03 · 4340 阅读 · 0 评论