【论文笔记】Generating Radiology Reports via Memory-driven Transformer

Feeedforward

已于 2022-04-29 16:12:48 修改

阅读量1.2k

点赞数 2

分类专栏：论文笔记 NLP 文章标签：深度学习自然语言处理

于 2022-04-29 12:46:28 首次发布

本文链接：https://blog.csdn.net/m0_47779101/article/details/124493310

版权

NLP 同时被 2 个专栏收录

31 篇文章

订阅专栏

论文笔记

23 篇文章

订阅专栏

Generating Radiology Reports via Memory-driven Transformer

通过记忆驱动的Transformer生成放射性医学图像报告

会议：EMNLP2020

源码

原文

1. 任务

医学图像报告生成任务，类似于图像描述任务，生成的文本较长，且文本对应图像中的各个区域特征。

2. 研究动机

尽管对于长度和准确性的要求带来了困难，放射学报告也有一系列特性有助于处理此任务。其中一个重要特性是它们高度模式化的性质，即任何相关的图片，它们可能在报告中共享相似的模式，这可以作为彼此的良好参考，以促进生成更加高质量的报告。例如，“The lungs are clear bilaterally” 和 “no evidence of focal consolidation, or pleural effusion” 也同时出现在其他相似的图像报告中。

3. 主要贡献

设计了一种关系记忆网络（Relational Memory）来记忆过去文本生成中的关键信息。
设计了一种记忆驱动的条件层归一化（Memory-driven Conditional Layer Normalization）结构来更好地在解码端融合记忆信息。
实验结果达到最佳性能，表明，不同图像报告中的相似的模式可以在生成过程中被隐式地建模并记忆，以促进Transformer的解码并生成更具信息性的长文本解释报告。

总结：使用了一种记忆驱动的报告生成方法，在解码端使用辅助的记忆模块来记录生成过程中的关键信息，并引入条件层归一化来更细粒度地融合上述记忆信息。充分利用训练数据中的关联文本和知识指导文本生成过程。

4. 模型

4.1 关系记忆网络（Relational Memory）

如何记忆？

关系记忆使用一个矩阵 $M$ 去转换它随生成时间步的状态，其中这个状态利用每一行（或称之为记忆槽：slot）记录一些重要的模式信息。在生成期间，矩阵被一步步更新整合利用来自前一时间步的输出。在时间步t，来自先前时间步的矩阵 $M_{t-1}$ 作为Query，它和上一时刻的输出的嵌入 $y_{t-1}$ 的拼接作为Key和Value传入多头注意力模块。采用多头注意模型对Q、K和V进行建模，以描述不同模式之间的关系。

同时，引入残差连接和门控机制以缓解梯度消失和梯度爆炸问题。

4.2 记忆驱动的条件层归一化（Memory-driven Conditional Layer Normalization）

如何融合？

在原始的Transformer的LN层中， $\gamma$ 和 $\beta$ 是两个关键参数，用来缩放和移动学习到的表征，以提高模型的泛化性能。

如图所示，在每个Transformer的解码层，使用三个MCLN，第一个MCLN的输出作为Query，编码器输出的隐藏状态作为Key和Value，三者一同输入到下一个多头注意力模块中。在时间步t，关系记忆网络的输出 $M_{t}$ 通过简单地拼接所有行扩展为 $m_{t}$ ，然后分别通过一个多层感知机（MLP）来预测两个参数的变化量 $\Delta \gamma _{t}$ 和 $\Delta \beta _{t}$ ，具体如下式所示：

用两个MLP来学习两个参数的变化量，而不直接学习这两个重要参数。可以使模型从关系记忆网络中受益，同时防止其影响过多的模型参数而影响一些核心信息的生成。

关于CLN的设计

参考自Conditional Batch Normalization，NeurIPS2017的一篇文章，Modulating early visual processing by language 这里的Conditional，指归一化的参数依赖于输入特征（features），这样的设计不对BN或LN层的参数大改，不轻易修改，而是预测其变化量，以较小的代价融合特定的信息。