pytorch笔记:10) 源代码跟读 On the Automatic Generation of Medical Imaging Reports

论文地址:https://arxiv.org/pdf/1711.08195.pdf
github地址:https://github.com/ZexinYan/Medical-Report-Generation

模型框架图

模型框架图

模型简介

给定一张CT图片,使用CNN对其进行多标签分类,模型最后一层输出(1维向量)作为Visual Features(VF),对分类结果取概率最大k个类别索引(topk)作为Semantic Features(SF),对VF和SF使用注意力机制Co-Attention获取一个上下文向量ctx,ctx通过SentenceLSTM获取 s t o p stop stop向量和 t o p i c topic topic向量,前者是输出结束标志,后者通过WordLSTM输出报告描述。

数据部分

数据部分主要在dataset.py文件中,作者提供的栗子使用了4张图片,打印下数据:

for i, (image, image_id, label, target, prob) in enumerate(data_loader):
	print("image.shape",image.shape)
	print("image_id",image_id)
	print("label.shape",label.shape)
	print("target",target.shape)
	print("prob",prob)
image.shape torch.Size([4, 3, 224, 224]) #4张RGB的图片
image_id ('CXR1972_IM-0633-1001.png', 'CXR932_IM-2430-3001.png', 'CXR1149_IM-0101-1001.png', 'CXR3976_IM-2035-1001.png') #图片名称
label.shape torch.Size([4, 210]) #4张图片的类别标签
target (4, 6, 18)#targer:report由多句话构成(中间用‘.’切分开),每句包含多个单词,这里6=该批次下report最多的句数,18=该批次下句中最大的单词数目
prob #0表示在第几句话时停止生成下一句话
[[1. 1. 1. 1. 1. 0.]
 [1. 1. 1. 1. 1. 0.]
 [1. 
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值