2021/7

29.Transformer Network for Significant Stenosis Detection in CCTA of Coronary Arteries

 Motivation:

        引起冠心病的冠状动脉斑块的复杂性使得冠状动脉造影(CCTA)中冠状动脉狭窄的自动检测成为一项困难的任务.已有的RNN方法虽然能够在一定程度上捕捉单个方向上语义特征之间的依赖关系,但很少考虑冠状动脉分支的全局干预来检测冠状动脉狭窄。为了确保模型能够在检测到局部冠状动脉狭窄之前学习整个冠状动脉分支的语义特征,我们将Transformer引入,提出的TR-Net结合了3D-CNN和Transformer。前者在提取局部语义信息方面具有相对较大的优势,而后者可以更自然地关联全局语义信息。我们采用了一种浅层3D-CNN来提取冠状动脉的局部语义特征,获取图像中每个位置的语义信息。然后,使用Transformer编码器来分析特征序列,这可以挖掘局部狭窄对冠状动脉每个位置的潜在依赖性

 

 

 

 

 

 TR-Net OverView:

       又因为不同部位斑块之间的潜在关系对临床诊断具有重要价值。在这项工作中,对于中心线上的图像块,在两个方向的斑块上都有可能影响检测结果的图像信息,为了将每个立方块的顺序信息引入到我们的模型中,我们在将order embeddings输入到Transformer结构之前:

 

 

 

 


 

 

 

 

30.Transformer in Transformer

 Motivation:

       Transformer是一种最初用于NLP任务的基于自注意力的神经网络。最近提出的基于Transformer的模型来解决视觉问题。这些视觉Transformer通常将图像视为一系列patches,而忽略每个patch内部的固有结构信息。基于此,本文提出了一种新颖的Transformer-iN-Transformer(TNT)模型,用于对 patch级和像素级表示双尺度进行建模。

TNT OverView:

     应用了计算机视觉领域比较经典的金字塔式结构.实验表明(TNT+DETR),在计算和存储成本增加很少的情况下,我们的TNT块可以有效地对局部结构信息进行建模进而对全局进行更好的估计,在准确性和复杂性之间取得更好的平衡。

31.You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

Motivation:

       本文对在中型 ImageNet-1k 数据集上预训练的传统ViT 在更具挑战性的 COCO 目标检测基准中的可迁移性进行了研究。具体来说,提出 You Only Look at One Sequence (YOLOS),是一系列基于纯 Vision Transformer 的目标检测模型,其修改和归纳偏差都是最小的。而仅在中等规模的 ImageNet-1k 数据集上预训练的 YOLOS 也已可以在COCO 上实现有竞争力的目标检测性能.重点揭示了Transformer的迁移学习能力与泛化性能.

YOLOS OverView:

        参照原始ViT架构,并参考DETR针对目标检测进行适当调整。YOLOS可以轻易的适配不同的Transformer结构,这种简单的设置初衷不是为了更好的检测性能,而是为了尽可能无偏的揭示Transformer在目标检测方面的特性。

          我们选择的随机初始的det作为目标表达的代理以避免2D结构与标签赋值时注入的先验知识存在的归纳偏置。当在COCO上进行微调时,每次前向传播时,在det与真实目标值之间构建一个最优二分匹配。该步骤起着与标签赋值相同的作用,但它与2D结构无关,也即说:YOLOS不需要将ViT的输出重解释为2D结构以进行标签赋值

实验结果表明YOLOS对于预训练机制更为敏感,且性能仍未达到饱和,且与DETR对比,具有更大参数量,但结果仍然稍弱.但是YOLOS的出发点并不是为了更佳的性能,而是为了精确的揭示ViT在目标检测方面的迁移能力YOLOS的这种最小调改精确地揭示了Transformer的灵活性与泛化性能

32.Toward Transformer-Based Object Detection

Motivation:

       在ViT提出之后,引发了一个问题,即基于transformer的体系结构(例如Vision Transformer)是否能够执行除分类以外的任务,尤其是目标检测这类高分辨率的复杂视觉任务.本文将Vision Transformer用作骨干(VT+检测头),以产生具有竞争力的COCO结果。我们提出的模型ViT-FRCNN展示了与transformer相关的几种已知特性,包括大的预训练能力和快速的微调性能。并且对大型对象的检测性能有所提高(可能是因为该架构能够全局处理),并且对对象的虚假过度检测更少

ViT-FRCNN OverView:

 

 实验结果:

 

 

 

 

 

 

 

33.End-to-End Human Object Interaction Detection with HOI Transformer

Motivation:

        本文提出使用HOI Transformer以端到端的方式处理人-物交互(HOI)检测。当前的方法要么将HOI任务解耦到对象检测和交互分类的分离阶段,要么引入替代交互问题。相比之下,我们的方法名为HOI变压器,通过消除对许多手工设计组件的需求,简化了HOI管道。HOI-T从全局图像背景中推理出物体和人的关系,并直接并行预测HOI实例。

Two-stage:通常由第一阶段的目标检测器和第二阶段的交互分类器组成。更具体地说,在第一阶段,使用微调的对象检测器来获得人和对象的边界框和类标签。在第二阶段,使用多流体系结构来预测每个人-对象对的交互。顺序和分离的两级架构,这些方法具有严重的复杂性和低效率。

One-stage:也就是一种替代交互检测方法,来直接优化HOI,首先交互的proposal是通过人的先验知识来预定义。在人和物之间找到一个center-point作为interaction-point。接着,人,物以及交互的proposals都会并行的被检测。然而,一阶段方法仍然需要复杂的后处理来对目标检测结果和交互预测进行分组。

HOI-T OverView:

 此方法由两个主要部分组成,一个端到端的Transformer编码器-解码器结构和一个五元组HOI实例匹配损失函数:

编-解码结构如上图.

HOI实例匹配策略:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

34.Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

Motivation:

       本文提出了一种新的vision transformer结构,它在两个方面显著地增强了ViT。首先是多尺度模型结构,它以可接受的计算成本提供多尺度的图像编码。第二个是Vision Longformer的注意机制,以实现了线性复杂度。

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值