TieNet论文个人理解

最新推荐文章于 2025-04-11 11:28:48 发布

diceroller

最新推荐文章于 2025-04-11 11:28:48 发布

阅读量1.5k

点赞数 2

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/diceroller/article/details/98755411

版权

TieNet是一种文本-图像嵌入网络，旨在解决胸部X光图像分类与报告生成的问题。该网络利用临床放射报告作为先验知识，通过输入文本报告和图像进行疾病分类，同时也能仅凭图像生成详细报告。TieNet采用预训练的ResNet50作为主干，结合LSTM处理文本信息，实现图像与文本的深度融合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文全名：

TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-rays

论文地址：

https://arxiv.org/pdf/1801.04334v1.pdf

Abstract

胸部X光图像读取相对困难的两个原因：

（1）大型数据集的短缺

（2）缺少模拟放射科专家的技术

作者认为临床的放射性报告可以作为一种先验知识来解决这两个问题。所以作者提出了TieNet,它通过输入文本报告和图像来对图片进行分类，而且可以只输入图像生成文本报告。

Introduction

第一段：深度学习在图像方面已经取得了很多成果。

第二段：医学图像领域的数据集很少，但是未经处理过的报告很多。所以关键就是如何让这些报告变为机器可以学习的知识。

第三、四、五、六段：作者提出了TieNet，可以适用于不同场景，并作出了验证。

Related work

CADe 和CADx

chest X-ray dataset(报告中含有比标签更多的信息)

其他（略）

Text-Image Embedding Network

sample report

下面是网络架构

主干架构是经典的预训练网络（比如ResNet50）,然后通过transition layer转化为标准形式。首先使用transition layer的激活值放入函数 $\phi (X)$ 来初始化lstm的隐藏层状态 $h_{_{t}}$ ,对于每一个lstm，隐藏层的更新由以下公式决定

其中w是新生成的词。

AETE

，M的维度是r*dh

最后对矩阵M的每一个r维向量做一个最大池化，得到dh维的向量

SW-GAP

复用了G来作为每个a的权重

对于每个通道的x进行加权求和。

联合学习

同样，输出的形式是one-hot向量

分类的损失函数用的是加权的交叉熵

因为这个网络同样可以生成报告，所以总的损失函数由分类的loss和生成模型的loss两部分组成

DataSet

ChestX-ray14

Hand-labeled

OpenI

Experiments

略

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。