深度学习算法原理——Attention-Based BiLSTM

1. 概述

随着神经网络,尤其是深度学习算法的发展,神经网络在文本分类任务中取得了很大的发展,提出了各种解决方案,如CNN在文本分类中的应用,RNN,LSTM等等,相比较于CNN以及RNN方法,LSTM可以学习长距离的语义信息。Attention-Based BiLSTM结合双向的LSTM(Bidirectional LSTM)以及Attention机制处理文本分类的相关问题,通过attention机制,该方法可以聚焦到最重要的词,从而捕获到句子中最重要的语义信息。

2. 算法思想

2.1 算法的组成部分

Attention-Based BiLSTM算法的网络结构如下所示:
在这里插入图片描述
在Attention-Based BiLSTM网络中,主要由5个部分组成:

  • 输入层(Input layer):指的是输入的句子,对于中文,指的是对句子分好的词;
  • Embedding层:将句子中的每一个词映射成固定长度的向量;
  • LSTM层:利用双向的LSTM对embedding向量计算,实际上是双向LSTM通过对词向量的计算,从而得到更高级别的句子的向量;
  • Attention层:对双向LSTM的结果使用Attention加权;
  • 输出层(Output layer):输出层,输出具体的结果。

注意点

  • Embedding通常有两种处理方法,一个是静态embedding,即通过事先训练好的词向量,另一种是动态embedding,即伴随着网络一起训练;
  • 双向LSTM的网络结构会在其他的文章中做进一步的介绍,这里就不详细展开。

2.2. BiLSTM层的输出

假设句子通过分词算法后,得到的 T T T个词为: { x 1 , x 2 , ⋯   , x T } \left \{ x_1,x_2,\cdots ,x_T \right \} {x1,x2,,xT},每一个词 x i x_i xi经过词向量的映射得到对应的词向量 e i e_i ei,假设经过LSTM后正向的输出为 → h i \underset{h_i}{\rightarrow} hi,逆向的输出为 ← h i \underset{h_i}{\leftarrow} hi,则第 i i i个词经过BiLSTM后得到的向量为:

h i = [ → h i ⨁ ← h i ] h_i=\left [ \underset{h_i}{\rightarrow}\bigoplus \underset{h_i}{\leftarrow} \right ] hi=[hihi]

其中, ⨁ \bigoplus 表示的是对应元素相加。

2.3. Attention机制

假设 H H H是所有 T T T个词经过BiLSTM后得到的向量的集合: [ h 1 , h 2 , ⋯ h T ] \left [ h_1,h_2,\cdots h_T \right ] [h1,h2,hT],那么Attention的计算方法如下:
M = t a n h ( H ) M=tanh\left ( H \right ) M=tanh(H)
其中, H ∈ R d w × T H\in \mathbb{R}^{d^w\times T} HRdw×T d w d^w dw表示的是向量的维度,对应的, M M M的维度为: d w × T d^w\times T dw×T
α = s o f t m a x ( w T M ) \alpha =softmax\left ( w^TM \right ) α=softmax(wTM)
其中, w T w^T wT表示的是需要学习的参数, w w w的维度为 d w × 1 d^w\times 1 dw×1 α \alpha α的维度为 1 × T 1\times T 1×T
r = H α T r=H\alpha ^T r=HαT
其中, r r r的维度为 d w × 1 d^w\times 1 dw×1
最终用于分类的向量表示为: h ∗ = t a n h ( r ) h^{\ast }=tanh\left ( r \right ) h=tanh(r)

2.4. 分类

针对句子 S S S,通过上述的BiLSTM以及Attention机制,得到了对应的表示矩阵: h ∗ h^{\ast } h,其维度为 d w × 1 d^w\times 1 dw×1。分类器以 h ∗ h^{\ast } h为输入:

p ^ ( y ∣ S ) = s o f t m a x ( W ( S ) h ∗ + b ( S ) ) \hat{p}\left ( y\mid S \right )=softmax\left ( W^{\left ( S \right )}h^{\ast }+b^{\left ( S \right )} \right ) p^(yS)=softmax(W(S)h+b(S))

参考文献

  • 7
    点赞
  • 76
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
《Deep Feature Mining via Attention-based BiLSTM-GCN for Human Motor Imagery Recognition》这篇文献提出了一个新的基于注意力机制的双向LSTM-图卷积神经网络(Attention-based BiLSTM-GCN)模型,用于人类运动想象识别。下面将分析该文献的模型实现过程。 该模型的输入是一个人运动想象的脑电信号,输出是该信号对应的类别标签。模型主要由以下几部分组成: 1. 时空特征提取器:该部分使用了一个双向LSTM网络,通过学习时间和空间上的特征表示,将输入的脑电信号转换为一个高维特征向量序列。 2. 图卷积神经网络:该部分使用了一个图卷积神经网络(GCN),通过学习不同脑区之间的关系,进一步提取特征并进行分类。 3. 注意力机制:为了使模型能够更好地关注重要的特征,该模型还引入了一个注意力机制,通过自适应地分配不同的权重来加强或弱化特征的贡献。 具体实现过程如下: 1. 数据预处理:首先需要对输入的脑电信号进行预处理,包括滤波、降噪、特征提取等步骤。 2. 双向LSTM网络:对于每个时间步,双向LSTM网络都会在正向和反向方向上计算隐藏状态,然后将这些状态连接在一起形成一个时空特征向量。这些特征向量被送入GCN网络中进一步处理。 3. 图卷积神经网络:GCN网络中的节点表示不同的脑区,边则表示不同区域之间的连接关系。GCN通过学习这些节点之间的关系,进一步提取特征并进行分类。 4. 注意力机制:注意力机制通过计算每个节点的重要性,自适应地分配不同的权重来加强或弱化特征的贡献。这样可以使模型更好地关注重要的特征。 5. 损失函数和优化器:模型的损失函数采用交叉熵损失函数,优化器采用Adam优化器。 综上所述,《Deep Feature Mining via Attention-based BiLSTM-GCN for Human Motor Imagery Recognition》这篇文献提出了一个基于注意力机制的双向LSTM-图卷积神经网络模型,用于人类运动想象识别。该模型通过学习脑电信号的时空特征,进而使用图卷积神经网络对特征进行进一步处理,最终实现了对人类运动想象的准确识别。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值