MRzzyy-CSDN博客

原创文献阅读：Training data-efficient image transformers & distillation through attention

Training data-efficient image transformers & distillation through attention1.四个问题要解决什么问题解决Transformer在图像分类问题中对数据集的限制用什么方法解决作者提出 DeiT，一种图像 transformers，通过改进训练和蒸馏过程，不需要非常大的数据量来进行训练。而相比与 EfficientNets 来说，DeiT 只对已有的数据增强和正则化策略进行了优化，除了distillation toke

2021-06-29 15:24:58 642

原创阅读文献：VOLO: Vision Outlooker for Visual Recognition

VOLO: Vision Outlooker for Visual Recognition1.四个问题要解决什么问题提高图像分类精度，所辖Transformer于CNN之间的差距用什么方法解决提出了一种新的轻量级注意力机制：Outlooker，能够高效地编码精细级别的信息。基于Outlooker，提出了VOLO，一种用于视觉识别的强大的模型架构。VOLO采用两阶段架构设计，同时考虑了更具细粒度的标记表示编码和全局信息聚合效果如何在ImageNet上达到了84.2%的top-1准确率。当模型

2021-06-28 10:03:50 934

原创阅读文献：LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference1.四个问题要解决什么问题在高速状态下，平衡图像分类方法的精度和效率用什么方法解决提出一种网络模型LeViT方法，在ViT模型基础上，引入卷积模块而不是学习类卷积特征的转换器组件，用特征金字塔替换Transformer中用以的结构（类似LeNet架构）本文的贡献是允许 ViT 模型在宽度和空间分辨率方面缩小的技术：使用注意力作为下采样机制的多级转换器架构

2021-06-25 19:28:23 1078

原创 Transformer：ViT、Swim、NesT

1.Vision TransformerAbstract: While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolu

2021-06-23 10:06:56 2269

原创阅读文献-Pyramid Multi-view Stereo Net with Self-adaptive View Aggregation

Pyramid Multi-view Stereo Net with Self-adaptive View Aggregation1.四个问题要解决什么问题？图像三维重建用什么方法解决？多度量金字塔深度聚合引入 1.提出了自适应视图聚合（逐像素视图聚合和体素），以较小的额外内存消耗合并来自不同视图的图像之间的元素差异，引导多个成本量聚合一个归一化的成本量。 2.通过在PVA-MVSNet中的多度量金字塔深度图聚合来合并多尺度信息，以进一步提高3D重

2021-06-21 10:44:43 458

原创阅读文献-Pay Attention to MLPs

Pay Attention to MLPs1.四个问题要解决什么问题提升深度学习的性能用什么方法解决提出一种新的，无需注意力的网络架构gMLP来代替Transformers效果如何它在语言和视觉应用中的性能可与Transformer媲美还存在什么问题（据说，spatial gating unit就是注意力，咱也不懂，咱也不敢说话）ps：目前各种attention方法太多，层出不穷，极不稳定，我也确实看不懂，只能进行记录，分享。论文简介摘要： Transformers已成为深度学习中

2021-06-11 11:08:55 368

原创阅读文献-A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms（2006.IEEE）

A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms1.四个问题要解决什么问题几种多立体视图重建算法的比较、评估（MVS）用什么方法解决首次提供一组使用真实3D模型注册的高质量校准对视图立体图像和用于比较多视图算法的评估方法来纠正（缺乏基准数据集）不平衡。1.启发的多视图立体重建算法的分类2.获取和传播一组具有高精度地面实况3D表面模型的校准多视图图像数据集3.一种衡量重建准确性和完整性的评估方法

2021-06-10 10:18:12 577

原创阅读文献-Large Scale Multi-view Stereopsis Evaluation

Large Scale Multi-view Stereopsis Evaluation1.四个问题要解决什么问题优化多立体视图（MVS）评估标准用什么方法解决1.提出了一个针对MVS的新数据集：由80个不同场景组成，其中59个场景包含49个摄像机位置，21个场景包含64个摄像机位置，图像分辨率为1200*1600。（相机安装在6轴工业机器人上，每个位置使用结构光来获取表面点云。使用18个LED来控制照明）2.寻求一种无偏见的评估方法：a.通过计算一个可观性掩码处理缺失数据，并且只评估位于其中

2021-06-09 16:25:42 507

原创阅读文献-M3VSNet: Unsupervised Multi-metric Multi-view Stereo Network（2020.5.28）

M3VSNet: Unsupervised Multi-metric Multi-view Stereo Network1.四个问题要解决什么问题3D reconstruction针对有监督的学习方法，用什么方法解决1.提出一种多度量无监督MVS网络，可用于没有任何真实3D训练数据的MVS。2.提出一种新的多度量损失函数，考虑了像素值之外的匹配对应的不同视角。3.在3D点云格式中加入了法线深度一致性，来提高估计深度图的准确性和连续性。效果如何优于之前SOTA无监督方法，在DTU数据及上与

2021-06-08 10:10:09 599

原创文献阅读：Pre-Trained Image Processing Transformer（2021.5.28.arXiv）

Pre-Trained Image Processing Transformer1.四个问题要解决什么问题低视觉任务（去燥、超分辨率、去雨、去模糊等）：图像处理探索一种用于图像处理任务的通用预训练方法用什么方法解决基于Transformer架构，通过大规模数据集，开发了一个用于图像处理的预训练模型，即图像处理转换器（IPT），以端到端的方式进行学习。整个模型分为3个部分：a.从损坏图像中提取特征的头部；b.用于恢复属于数据中心丢失信息的编码器-解码器转换器；c.用于将特征恢复为图像的尾部将I

2021-06-07 10:23:15 787 1

原创文献阅读-Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation

Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation1.四个问题要解决什么问题？自监督在多视图立体（MVS）重建中不稳定的问题用了什么方法解决为了解决这个问题，提出了一个框架，该框架与由语义协同分割和数据增强引导的更可靠的监督相结合。特别地，从多视图图像中挖掘相互语义来指导语义一致性。并且设计了有效的数据增强机制，通过将常规样本的预测视为伪地面实况来规范增强样本的预测，从而确保

2021-06-03 10:18:57 812

原创文献阅读-HighRes-MVSNet: A Fast Multi-View Stereo Network for Dense 3D Reconstruction From High-Resoluti

HighRes-MVSNet: A Fast Multi-View Stereo Network for Dense 3D Reconstruction From High-Resolution Images1.四个问题要解决什么问题？降低三维重建过程中的内存需求用什么方法解决？提出端到端的深度学习框架，一种具有金字塔编码器-解码器结构的卷积神经网络，可在从粗到细的层次结构上逐步搜索深度对应关系。在网络的第一阶段将图像特征编码为更小的分辨率，以显着降低内存需求。此外，将每个层次级别的深度搜索

2021-06-03 09:29:10 406

原创文献阅读：PA-MVSNet: Sparse-to-Dense Multi-View Stereo With Pyramid Attention

PA-MVSNet: Sparse-to-Dense Multi-View Stereo With Pyramid Attention1、四个问题要解决什么问题？3D reconstruction。用了什么方法解决？在MVSNet的起初上，加入了特征金字塔、注意力机制。不同尺度的金字塔注意力模块直接用于下一层，而不是构件特征金字塔作为输入。效果如何？在DTU上评估，PA-MVSNet准确率为0.313，强过Point-MVSNet，差于Gipuma；完整度为0.437，好过Gipuma和R-

2021-06-02 09:44:18 343