医学报告生成论文阅读-系列1

前言

从去年九月入课题组以来,我一直在想办法提高自己的科研能力,尽快融入到课题组。在去年十月我定下了未来的研究内容——医学报告生成,主要是考虑到该领域能够很好得服务社会并创造价值。
本篇重点介绍前段时间看的往年优秀文章,从中提炼信息。

图像描述

确定题目之后我便开始读论文,根据老师的建议,首先读了一些关于图像字幕的论文,其中令我印象比较深刻的有m2transformer(如图1)与dual-level transformer等工作。

m2transformer

m2transformer利用编码器解码器架构来将图片转换为描述性文本,其中解码器与编码器网状连接,每个解码器的输入由所有编码器的结果加权得到,有利于捕获更细致的特征。其次,在编码阶段的注意力机制中使用注意力槽,增加记忆,为后续的过程提供先验知识。

图1 m2transformer
在这里插入图片描述

dual-level transformer

dual-level transformer使用了Regions与Grids的特征,将两种特征进行了对齐,并利用关注绝对位置信息与相对位置信息的CRA模块依次得到Regions与Grids的自注意力信息,之后将两部分信息通过LCCA进行特征对齐,得到编码器输出。在解码阶段利用与m2transformer类似的解码过程,得到最终结果。

图2 dual-level transformer
在这里插入图片描述

其他补充

此外,还读了“Self-critical Sequence Training for Image Captioning”、“Attention on Attention for Image Captioning”、“Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering”等文章,在之后做细致的总结。

了解过这些图像字幕的工作之后,大致了解了如何将图像特征转换为文本特征。很多模型借助了CNN-RNN架构,使用CNN处理视觉信息,并在得到视觉特征后使用RNN生成文本。在RNN之前,很多模型都提取到了足够多的注意力信息,能够在生成文本时使文本内容与具体的图像区域进行对应,以更好地捕获文本域图像的关系,提高准确率。随着近几年Transformer的火热出现,很多基于Transformer的工作横空出世,像这里提到的两篇工作,都是基于Transformer框架进行设计,模型效果得到了很大程度的提升。

医学报告生成

作为图像字幕的特殊应用,医学报告生成在近年也逐渐受到学术界的关注,不过大多数都是胸部CT报告生成。

On the Automatic Generation of Medical Imaging Reports

“On the Automatic Generation of Medical Imaging Reports”工作发表于2017年,利用了MLC对视觉特征进行分类并得到Tags,将由Tags得到的语义特征与先前的视觉特征进行互注意力计算,获取图像与标签的对应关系,在后期使用层级LSTM生成报告。

图3 On the Automatic Generation of Medical Imaging Reports
在这里插入图片描述

TieNet Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-rays

发表于2018年的TieNet利用多任务学习的思想,对于每个时刻都找到其加权的视觉特征与文本编码,通过lstm得到隐藏状态与输出的单词。之后利用得到的全部隐藏状态与平均池化后的图像特征得到多标签分类结果。损失包括生成报告的损失与最后多标签疾病分类的损失,不断优化该损失能够增加文本与图像特征的联系并在全局层面提高对病理类别的判断。

图4 TieNet
在这里插入图片描述

Multimodal Recurrent Model with Attention for Automated Radiology Report Generation

“Multimodal Recurrent Model with Attention for Automated Radiology Report Generation”利用了impression的特征生成findings中第一句话,将句子编码的输出与图像特征结合,得到句子LSTM层面的注意力,引导后面单词的生成。主要的创新点在于能够在句子LSTM上增加与图像特征与先前句子特征有关的注意力,把控当前句子的特征,以便于后续单词LSTM更进准地生成该句的细节信息。

图5 Multimodal Recurrent Model with Attention for Automated Radiology Report Generation
在这里插入图片描述

Knowledge-driven Encode, Retrieve, Paraphrase for Medical Image Report Generation

“Knowledge-driven Encode, Retrieve, Paraphrase for Medical Image Report Generation”本文使用知识图谱的相关方法,设计了异常图来存储先验知识,异常图记录了常见病症之间的关系。为了更好地利用先验知识,设计了GTR来转换图像特征-图特征、图特征-语句特征、图特征-图特征、图特征与语句特征-语句特征。整体简称为KERP,E表示编码器、R表示检索模块、P表示报告生成模块,最后还有一个疾病分类的模块,目测是为了回传分类损失以提升异常图的准确度。

图6 Knowledge-driven Encode, Retrieve, Paraphrase for Medical Image Report Generation
在这里插入图片描述

Automatic Generation of Medical Imaging Diagnostic Report with Hierarchical Recurrent Neural Network

“Automatic Generation of Medical Imaging Diagnostic Report with Hierarchical Recurrent Neural Network”工作提到了一种提取标签特征的方法,成为GLP,这种方法能够规避直接对特征图进行全连接产生的问题,比如丢失局部特征或打乱疾病区域的特征分布。利用GLP直接在得到特征图之后通过softmax得到标签图,再对其进行全局最大池化,这样得到的572特征能够更好得通过与真实标签对比计算loss而优化模型。此外,该工作将生成的topic与真实语句进行匹配,加强了语句的多样性以及准确度。

图7 GLP and GFP
在这里插入图片描述
图8 Automatic Generation of Medical Imaging Diagnostic Report
在这里插入图片描述

Generating Radiology Reports via Memory-driven Transformer

“Generating Radiology Reports via Memory-driven Transformer”工作利用Transformer架构,通过增加记忆模块使得模型注重每份报告相似的地方,生成更加完善的报告。骨干网络借助Transformer;解码器使用了多级架构,经过三级MCLN融入上一时刻的注意力特征Mt-1,最后经过线性投影层与softmax层输出结果。在记忆块中,以上一时刻的Mt-1作为q,Mt-1与yt-1的串联作为k和v,加入了门控机制权衡M与y的份量。值得注意的是,该工作调整了Transformer在LayerNorm后的γ与β,在MCLN中,用到了RM模块产生的记忆信息,它们通过NLP等一系列转换得到γ一帽与β一帽,用于为LayerNorm后增加历史信息。

图9 Generating Radiology Reports via Memory-driven Transformer
在这里插入图片描述

总结与反思

以上分析的都是第一阶段学习到的论文,这些论文种包含了多种方法,乍眼一看令人感到渺茫,但是深入去研究、去对比,有时能够发现相通之处。

  • 关于采用的模型,早期工作往往采用CNN-RNN架构,后期常见Transformer架构,对于前者,在解码阶段通常会将之前的单词与视觉特征以循环的方式相结合,并通过注意力值进行调控。这里对于层级RNN,就会有两层循环,外层循环解决句子topic,内层解决单词。在很多工作都偏向于为内层添加注意力时,一些开创性的工作会在外层句子RNN处添加更加global的注意力,引导句子的主题,使句子的表达思想更为合理。对于Transformer架构来说,也是一个道理,长距离依赖往往会带来更出彩的表现,为Transformer添加注意力时,往往是以矩阵的形式,这与循环的形式不同,但异曲同工。为Transformer添加注意力的方法也很多,比如像m2transformer用网状结构分权获取全部编码器的输出、设置注意力槽,个人认为这可以看做一种注意力。再比如dual-level transformer中的综合关系注意力,结合了相对位置与绝对位置的信息,能够富含更多的区域特征或网格特征。该工作中的LCCA也是一种创新性很强的注意力,它使Region与Grid对齐,从而得到更好的视觉特征。

  • 关于注意力的来源,也是大有文章。很多医学报告生成工作使用了多标签分类产生的labels或Tags,或是异常病症图,或是视觉特征中提取的注意力图等等。当然,方式也有很多种,有的工作会在后面对分类结果loss进行计算并梯度回传,有的会把分类得到的labels在一开始进行计算并得到注意力。

  • 关于报告生成中借助到的特征,有的工作使用句子LSTM产生的topic作为该句的归纳性特征,有的工作将topic与ground truth映射到一个特征空间,有的工作利用先前样本中的记忆值生成报告,有的工作利用根据图特征检索到的Templates生成句子。

  • 16
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值