《基于视觉-语言对齐的COVID-19粗到细分割》阅读笔记

小杨小杨1

于 2023-03-29 14:03:40 发布

阅读量219

点赞数 1

分类专栏： # 全监督文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45745941/article/details/129790941

版权

全监督专栏收录该内容

158 篇文章

订阅专栏

文章提出了一种名为C2FVL的框架，它结合CNN和VisionTransformer进行COVID-19病灶的粗到细分割。通过VLAB模块实现文本和图像信息的对齐，提升分割精度。使用新的损失函数优化对齐效果，并在两个数据集上验证了方法的优越性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

COARSE-TO-FINE COVID-19 SEGMENTATION VIA VISION-LANGUAGE ALIGNMENT

摘要

粗到细
视觉-语言
语义分割

本文贡献

利用CNN和Vision Transformer构建了C2FVL分割框架
提出了一个视觉语言对齐模块(VLAB)和一个新的损失函数，以促进文本和图像信息的对齐，从而提高分割精度
将我们的C2FVL与最先进的分割方法在两个COVID-19数据集上进行了比较，实验表明C2FVL的性能是最佳的
代码链接

方法

编码器由CNN和vit组成，此外VLAB结合文本信息，将文本信息的与图像的通道进行对齐
在这里插入图片描述

将文本信息转换为一个维数为8的向量。第一个维度表示病变区域是否为双侧，第二个维度表示病变数量，后续三个维度依次表示病变在左右肺中的位置。例如，假设文本消息是“双侧肺部感染，两个感染区域，左上肺中部和右下肺中部”。在这种情况下，我们将其转换为向量Vtext =[1,2,1,1,0,0,1,1]
在这里插入图片描述
VLAB模块：

损失函数：
计算不同VLAB输出之间的余弦损失，迫使各网络层聚焦于同一焦点区域

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小杨小杨1 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。