Generating Radiology Reports via Memory-driven Transformer
通过记忆驱动的Transformer生成放射性医学图像报告
会议:EMNLP2020
1. 任务
医学图像报告生成任务,类似于图像描述任务,生成的文本较长,且文本对应图像中的各个区域特征。
2. 研究动机
尽管对于长度和准确性的要求带来了困难,放射学报告也有一系列特性有助于处理此任务。其中一个重要特性是它们高度模式化的性质,即任何相关的图片,它们可能在报告中共享相似的模式,这可以作为彼此的良好参考,以促进生成更加高质量的报告。例如,“The lungs are clear bilaterally” 和 “no evidence of focal consolidation, or pleural effusion” 也同时出现在其他相似的图像报告中。
3. 主要贡献
- 设计了一种关系记忆网络(Relational Memory)来记忆过去文本生成中的关键信息。
- 设计了一种记忆驱动的条件层归一化(Memory-driven Conditional Layer Normalization)结构来更好地在解码端融合记忆信息。
- 实验结果达到最佳性能,表明,不同图像报告中的相似的模式可以在生成过程中被隐式地建模并记忆,以促进Transformer的解码并生成更具信息性的长文本解释报告。
总结:使用了一种记忆驱动的报告生成方法,在解码端使用辅助的记忆模块来记录生成过程中的关键信息,并引入条件层归一化来更细粒度地融合上述记忆信息。充分利用训练数据中的关联文本和知识指导文本生成过程。
4. 模型
4.1 关系记忆网络(Relational Memory)
如何记忆?
关系记忆使用一个矩阵 M M M去转换它随生成时间步的状态,其中这个状态利用每一行(或称之为记忆槽:slot)记录一些重要的模式信息。在生成期间,矩阵被一步步更新整合利用来自前一时间步的输出。在时间步t,来自先前时间步的矩阵 M t − 1 M_{t-1} Mt−1作为Query,它和上一时刻的输出的嵌入 y t − 1 y_{t-1} yt−1的拼接作为Key和Value传入多头注意力模块。采用多头注意模型对Q、K和V进行建模,以描述不同模式之间的关系。
同时,引入残差连接和门控机制以缓解梯度消失和梯度爆炸问题。
4.2 记忆驱动的条件层归一化(Memory-driven Conditional Layer Normalization)
如何融合?
在原始的Transformer的LN层中, γ \gamma γ 和 β \beta β是两个关键参数,用来缩放和移动学习到的表征,以提高模型的泛化性能。
如图所示,在每个Transformer的解码层,使用三个MCLN,第一个MCLN的输出作为Query,编码器输出的隐藏状态作为Key和Value,三者一同输入到下一个多头注意力模块中。在时间步t,关系记忆网络的输出 M t M_{t} Mt通过简单地拼接所有行扩展为 m t m_{t} mt,然后分别通过一个多层感知机(MLP)来预测两个参数的变化量 Δ γ t \Delta \gamma _{t} Δγt和 Δ β t \Delta \beta _{t} Δβt,具体如下式所示:
用两个MLP来学习两个参数的变化量,而不直接学习这两个重要参数。可以使模型从关系记忆网络中受益,同时防止其影响过多的模型参数而影响一些核心信息的生成。
-
关于CLN的设计
参考自Conditional Batch Normalization,NeurIPS2017的一篇文章,Modulating early visual processing by language 这里的Conditional,指归一化的参数依赖于输入特征(features),这样的设计不对BN或LN层的参数大改,不轻易修改,而是预测其变化量,以较小的代价融合特定的信息。
5. 实验
5.1 数据集
使用两个公开的数据集IU X-Ray和MIMIC-CXR。
5.2 消融实验
本文分别设计了BASE(仅Transformer)、BASE+RM(在每个时间步直接将RM拼接到Transformer解码器的softmax之前的输出上)、BASE+RM+MCLN三种模型进行对比。
实验结果显示,BASE+RM+MCLN性能最佳,BASE+RM次之。
分别验证了:
- 融合记忆信息可以有效地建模报告中的模式。
- MCLN可以更好地融合信息。
5.3 基线对比
在文本生成(NLG)和临床疗效(CE)指标上达到最佳性能。
5.4 分析
5.4.1 记忆槽大小(Memory Size)
尝试了{1,2,3,4},实验结果发现,size=3时性能最佳。size=4时性能全面下降,意味着太大的记忆槽可能会记忆过多的冗余和无效的信息。从而对文本生成过程造成负面影响。虽然增大内存大小会导致参数的增加,但结果表明,每当在内存中添加一个slot时,并没有引入太多的参数(与参数的总数相比)。
5.4.2 报告长度
比之BASE+RM,BASE+RM+MCLN生成的报告的长度分布更接近ground truth,这可以解释为,不将记忆应用到最终输出,而是在Transformer中的每一层利用内存更有帮助,从而以细粒度的方式控制解码过程。
以上观察结果表明,记忆和使用它的方式都是提高放射学报告生成的两个重要因素。
输出,而是在Transformer中的每一层利用内存更有帮助,从而以细粒度的方式控制解码过程。
以上观察结果表明,记忆和使用它的方式都是提高放射学报告生成的两个重要因素。