CV每日论文--2024.6.7

1、Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review

中文标题:卷积神经网络和视觉变换器在Fashion MNIST分类任务中的应用:文献综述

简介:本文综述了在Fashion MNIST数据集上使用卷积神经网络(CNN)和视觉Transformer(ViT)进行图像分类的相关研究。

CNN长期以来一直是图像分类的主流技术,而ViT则引入了一种基于自注意机制的创新方法。尽管Transformer最初主要应用于自然语言处理,但它们在图像分类任务上也显示出了良好的性能。

本综述旨在比较分析CNN和ViT在图像分类中的不同特点和优势。我们详细审视了采用这两种架构的最新方法,并探讨了影响它们性能的关键因素,如数据集特征、图像尺寸、类别数量等。

总的来说,本文的目标是确定在电子商务服装分类应用中,CNN和ViT哪种架构更加合适。同时也强调了将这两种架构结合使用的重要性,以充分发挥它们各自的优势,为该领域提供更加准确可靠的模型。

2、Post-hoc Part-prototype Networks

中文标题:事后原型网络

简介:后续解释方法(如Grad-CAM)因不影响模型性能而广受欢迎,但它们主要揭示了模型对输入"关注了哪里",却无法解释模型"在寻找什么"(比如对于将鸟类图像归类为Scott Oriole,模型认为哪些特征很重要)。现有的部件-原型网络利用部件原型(如Scott Oriole的翅膀和头部特征)来回答"关注了哪里"和"在寻找什么",但准确性通常不如它们的黑盒对应物。

因此,研究人员提出了一种新的网络结构,即后续部件-原型网络。它通过对训练好的模型的分类器进行分解,得到一组可解释的部件原型。具体来说,它采用无监督的原型发现和细化策略,获得能精确重构分类器的原型,同时又具有可解释性。与之前的部件-原型网络相比,这种方法不仅能保证模型性能,而且提供了更忠实、更定量的可解释性。

3、SuperFormer: Volumetric Transformer Architectures for MRI Super-Resolution

中文标题:SuperFormer: MRI超分辨率的体积变换器架构

简介:这篇文章提出了一种新的框架,使用视觉Transformer (ViT) 来处理3D医学图像数据,特别是磁共振成像 (MRI) 数据。

首先,作者将最新的Swin Transformer模型扩展到了3D医学领域。

其次,作者提出了一种新的方法来处理ViT中的体积信息和位置编码,使其更适用于3D应用。

基于这个框架,作者提出了SuperFormer,一种基于体积Transformer的MRI超分辨率方法。

这种方法利用了MRI数据的3D信息,并使用带有3D相对位置编码的局部自注意机制来恢复解剖细节。

此外,该方法还融合了体积和特征域的信息,以重构高分辨率的MRI图像。

作者在人类连接组数据集上进行了广泛的实验验证,并展示了体积Transformer模型优于基于3D卷积神经网络的方法。

最后,作者公开了相关的代码和预训练模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值