【论文解读】Deep Biaffine Attention for Neural Dependency Parsing(基于深层双仿射注意力的神经网络依存解析)

【代码实现】基于tensorflow2.2实现,直接运行在goole colab,见github仓库.

【参考文献】
1. Deep Biaffine Attention for Neural Dependency Parsing - 中文笔记
2. DEEP BIAFFINE ATTENTION FOR NEURAL DEPENDENCY PARSING


Introduction

使用基于图的方法解析依存句法,对句中每次词找到head以及其到head的依存标签,因此针对图的依存句法解析需解决两个问题:

  • 不定类别分类,哪两个节点连接弧?
  • 固定类别分类,弧的标签是什么?

本文使用 双仿射分类器 分别预测依存关系(arc)和依存标签(label),在英语PTB数据集中0.957 UAS, 0.941 UAS,使之成为graph-based依存句法解析的基准模型,文中也介绍模型一些超参数对模型效果的影响。

模型的以下特点:

  • 使用双仿射注意力机制,而不是使用传统基于MLP注意力机制的单仿射分类器,或双线性分类器;
  • 第一次尝试使用MLP对LSTM的输出进行降维,再输入至仿射层;

Deep Biaffine Attention

双仿射层的作用

本文提出的双仿射注意力机制可看作为传统的单仿射分类器,即使用stacked LSTM输出的MLP线性变换 R U ( 1 ) RU^{(1)} RU(1)替换权重矩阵 W W W,线性变换 R u ( 2 ) R\boldsymbol u^{(2)} Ru(2)替换偏置项 b \boldsymbol b b,arc双仿射分类器如下所示:

双仿射分类器使用双线性层,比传统使用两层线性层和一个非线性激活单元的MLP网络更简单,同时,arc双仿射分离器对两种概率直接建模:

  • r j ⊤ u ( 2 ) \boldsymbol r_j^\top\boldsymbol u^{(2)} rju(2),结点 j j j接受任意依赖的先验概率;
  • r j ⊤ U ( 1 ) r i \boldsymbol r_j^\top U^{(1)}\boldsymbol r_i rjU(1)ri,结点 j j j接受单词 i i i依赖的概率;

同样地,使用另一个label双仿射分类器预测单词与其头结点(glod or predicted,训练时来自于真实头结点,预测时来源于arc分类器输出的最可能头结点)间的依赖标签:

式中 U ( 1 ) U^{(1)} U(1)是维度为 R m × d × d \R^{m\times d \times d} Rm×d×d的高阶张量(m是标签个数,d是biaffine输入维度),label双仿射分类器对以下概率建模:

  • 结点 i i i被贴上特定依存标签的可能性;
  • 结点 i i i头结点 j j j被贴上特定依存标签的可能性;
  • 给定特定头结点 j j j下,结点 i i i被贴上特定依存标签的可能性;

arc分类器是不定类别分类器,类别数与序列长度有关,label分类器是固定类别分类器,类别数等于所有可能的依存关系数。


MLP层的作用

MLP层使用较小维度输出,可对LSTM输出降维后再输入至仿射层,避免过拟合。

LSTM层的输出状态需要携带足够的信息,如识别其头结点,找到其依赖项,排除非依赖项,分配自身及其所有依赖的依存标签,而且还需要把其它任何相关信息传递至前或后单元。对这些不必要的信息进行训练会降低训练速度,而且还有过拟合的风险。

使用MLP对LSTM输出降维,并使用双仿射变换,可解决这一问题!具体地说,使用两个独立的MLP网络对stacked BiLSTM输出重新编码,分别得到单词的dephead向量。

我们称以上网络结构为深层双仿射注意力机制。在预测依存树时,与其它基于图的依存句法解析模型一样,将每个单词在arc分类器输出分数最高的单词作为其头结点(本文也验证了MST算法)。

理解Attention
式6得到的arc分数向量可理解为,单词 i i i自身dep向量对句中其它任意单词head向量的注意力分数,酷似attention!


矩阵乘法等价形式
若将偏置项 u \boldsymbol u u放入参数矩阵 U ( 1 ) U^{(1)} U(1),并同时考虑所有单词的arc,则arc分类器的等价形式为
S ( a r c ) = H ( a r c − h e a d ) [ U ( 1 ) u ( 2 ) ] [ H ( a r c − d e p ) 1 ] S^{(arc)}= H^{(arc-head)} \begin{bmatrix} U^{(1)}\\ \boldsymbol u^{(2)} \end{bmatrix} \begin{bmatrix} H^{(arc-dep)} & 1 \end{bmatrix} S(arc)=H(archead)[U(1)u(2)][H(arcdep)1]

若序列长度为d(包含root节点后的长度),则 S ( a r c ) ∈ R d × d S^{(arc)}\in\R^{d\times d} S(arc)Rd×d,可用于可变类别分类。

更正矩阵等价公式(括号内加法为广播加法)
S ( s r c ) = H ( a r c − h e a d ) ( U ( 1 ) H ( a r c − d e p ) + u ( 2 ) ) S^{(src)}=H^{(arc-head)}(U^{(1)}H^{(arc-dep)}+\boldsymbol u^{(2)}) S(src)=H(archead)(U(1)H(arcdep)+u(2))


模型超参数

### 回答1: ECA-Net是一种用于深度卷积神经网络的高效通道注意力机制,可以提高模型的性能和效率。它通过对每个通道的特征图进行加权,使得网络可以更好地学习到重要的特征。ECA-Net的设计简单,易于实现,并且可以与各种深度卷积神经网络结构相结合使用。 ### 回答2: ECA-Net是一种用于深度卷积神经网络的高效通道注意力机制。 ECA-Net通过提出一种名为"Efficient Channel Attention"(ECA)的注意力机制,来增强深度卷积神经网络的性能。通道注意力是一种用于自适应调整不同通道的特征响应权重的机制,有助于网络更好地理解和利用输入数据的特征表示。 相比于以往的注意力机制,ECA-Net采用了一种高效且可扩展的方式来计算通道注意力。它不需要生成任何中间的注意力映射,而是通过利用自适应全局平均池化运算直接计算出通道注意力权重。这种方法极大地降低了计算和存储开销,使得ECA-Net在实际应用中更具实用性。 在进行通道注意力计算时,ECA-Net引入了两个重要的参数:G和K。其中,G表示每个通道注意力的计算要考虑的特征图的大小;K是用于精细控制计算量和模型性能之间平衡的超参数。 ECA-Net在各种视觉任务中的实验结果表明,在相同的模型结构和计算资源下,它能够显著提升网络的性能。ECA-Net对不同层级的特征表示都有显著的改进,能够更好地捕捉不同特征之间的关联和重要性。 总之,ECA-Net提供了一种高效并且可扩展的通道注意力机制,可以有效提升深度卷积神经网络的性能。它在计算和存储开销上的优势使得它成为一个非常有价值的工具,可在各种计算资源受限的应用中广泛应用。 ### 回答3: "eca-net: efficient channel attention for deep convolutional neural networks" 是一种用于深度卷积神经网络的高效通道注意力模块。这一模块旨在提高网络对不同通道(特征)之间的关联性的理解能力,以提升网络性能。 该方法通过引入了一个新的注意力机制来实现高效的通道注意力。传统的通道注意力机制通常是基于全局池化操作来计算通道之间的关联性,这种方法需要较高的计算成本。而ECA-Net则通过引入一个参数化的卷积核来计算通道之间的关联性,可以显著减少计算量。 具体来说,ECA-Net使用了一维自适应卷积(adaptive convolution)来计算通道注意力。自适应卷积核根据通道特征的统计信息来调整自身的权重,从而自适应地计算每个通道的注意力权重。这样就可以根据每个通道的信息贡献度来调整其权重,提高网络的泛化能力和性能。 ECA-Net在各种图像分类任务中进行了实验证明了其有效性。实验结果显示,ECA-Net在相同计算预算下,相比其他通道注意力方法,可以获得更高的分类精度。同时,ECA-Net还具有较少的额外计算成本和模型大小,使得其在实际应用中更加高效。 总结而言,"eca-net: efficient channel attention for deep convolutional neural networks" 提出了一种高效通道注意力方法,通过引入自适应卷积核来计算通道注意力,从而提高了深度卷积神经网络的性能。这一方法在实验中取得了良好的效果,并且具有较少的计算成本和模型大小。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值