论文笔记--SemSUM: Semantic Dependency Guided Neural Abstractive Summarization
1. 文章简介
- 标题:SemSUM: Semantic Dependency Guided Neural Abstractive Summarization
- 作者:Hanqi Jin, Tianming Wang, Xiaojun Wan
- 日期:2022/04/03
- 期刊:AAAI
2. 文章导读
2.1 概括
文章提出了一种新的摘要生成方法,通过结合句法依存分析,使得模型生成的文本摘要更准确、流畅。模型设计架构如下:
SemSUM模型包含一个句子编码层,一个图编码层和一个摘要生成(解码)层,通过将句法依存关系注入到语言模型中,整体表现持平甚至超过State-of-the-art水平。
2.2 文章重点技术
2.2.1 Sentence Encoder 句子编码层
这时候又要拿出这张经典神图了:
没错,文章的句子编码层是几乎完全按照这张经典神图的Encoder部分进行架构的,这里简要介绍下:
- Encoder层分为 L 1 L1 L1 个layers,文章设置 L 1 = 4 L1=4 L1=4,也就是上图红框内的部分层包含一个
- 每个Layer包含两个Sub-Layers:多头自注意力机制层和前馈层
- 多头自注意力制层由key, query, value及其权重构成,学习到每个Token对句子中其它所有Token的注意力,再将多头进行拼接。其中自注意力得分为
A t t n ( Q , K , V ) = S o f t m a x ( Q K T d k ) V Attn(Q, K, V) = Softmax (\frac{QK^T}{\sqrt{d_k}}) V Attn(Q,K,V)=Softmax(dkQKT)V - 前馈层(Feed Forward)采用Relu激活函数:
F F N ( x ) = m a x ( 0 , x W 1 + b 1 ) W 2 + b 2 FFN(x) = max(0,xW1 +b1)W2 +b2 FFN(x)=max(0,xW1+b1)W2+b2 - 上述两层分别增加残差连接层和LayerNormalization,最后分别输出 s = L a y e r N o r m ( s l − 1 + M H A t t ( s l − 1 , s l − 1 , s l − 1 ) ) s l = L a y e r N o r m ( s + F F N ( s ) ) s = LayerNorm (s^{l - 1}+ MHAtt(s^{l - 1}, s^{l - 1}, s^{l - 1}))\\ s^l = LayerNorm (s + FFN(s)) s=LayerNorm(sl−1+MHAtt(sl−1,sl−1,sl−1))sl=LayerNorm(s+