论文阅读
文章平均质量分 83
论文阅读笔记
橙子的科研日记
这个作者很懒,什么都没留下…
展开
-
【扩散模型->人物合成】PIDM : Person Image Synthesis via Denoising Diffusion Model
采用扩散模型和 OpenPose、人物图像作为条件,进行姿态迁移训练,同时可以用于服装迁移、风格混合、行人重识别等。原创 2022-12-23 16:15:48 · 2396 阅读 · 1 评论 -
【虚拟试衣论文笔记】M3D-VTON: A Monocular-to-3D Virtual Try-On Network
论文地址:项目地址:https://github.com/fyviezhao/M3D-VTON本文提出了一种 Monocular-to-3D Virtual Try-On Network (M3D-VTON) 的多姿态图像虚拟试衣方法,兼顾了2D与3D方法的优点。主要是利用所提出的 Monocular Prediction Module (MPM) 从图像中估计目标人体分割图、深度图来同时获得2D与3D的辅助信息,并且通过 Depth Refinement Module (DRM) 加强深..原创 2022-04-03 22:12:00 · 2025 阅读 · 5 评论 -
【虚拟试衣论文笔记】Towards Scalable Unpaired Virtual Try-On via Patch-Routed Spatially-Adaptive GAN
论文地址:https://proceedings.neurips.cc/paper/2021/file/151de84cca69258b17375e2f44239191-Paper.pdf项目地址:https://github.com/xiezhy6/PASTA-GAN为了实现一个能够以无监督的方式在源和目标人之间迁移任意服装的可扩展的虚拟试穿方法,本文提出了一种纹理保持的端到端网络,即 **PAtch-routed SpaTially-Adaptive GAN (PASTA-GAN)**来实现非..原创 2022-03-28 17:26:27 · 585 阅读 · 0 评论 -
【虚拟试衣论文】Generating High-Resolution Fashion Model Images Wearing Custom Outfits
论文地址:http://openaccess.thecvf.com/content_ICCVW_2019/papers/CVFAD/Yildirim_Generating_High-Resolution_Fashion_Model_Images_Wearing_Custom_Outfits_ICCVW_2019_paper.pdf项目地址:Zalando是总部位于德国柏林的大型网络电子商城, 其主要产品是服装和鞋类。这篇文章很短,几乎没有什么废话,模型的效果看起来也很好。得益于其行业性质,其使用的..原创 2022-03-09 16:14:58 · 501 阅读 · 0 评论 -
【虚拟试衣论文笔记】C-VTON: Context-Driven Image-Based Virtual Try-On Network
论文地址:https://openaccess.thecvf.com/content/WACV2022/papers/Fele_C-VTON_Context-Driven_Image-Based_Virtual_Try-On_Network_WACV_2022_paper.pdf项目地址:https://github.com/benquick123/C-VTON作者提出了一个上下文驱动的虚拟试穿网络 (C-VTON),即使在具有挑战性的姿势配置和存在自我遮挡的情况下,也能令人信服地将选定的服装区..原创 2022-03-06 16:41:43 · 4748 阅读 · 2 评论 -
【ViT论文】Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations
论文地址:http://arxiv.org/abs/2202.07800项目地址:https://github.com/youweiliang/evit在这项工作中,作者在 ViT 模型的前馈过程中重新组织图像标记,在训练期间将其集成到 ViT 中。由相应的类令牌注意力引导识别 MHSA 和 FFN(即前馈网络)模块之间的注意力图像令牌,然后,通过保留注意图像标记和融合非注意图像标记来重组图像标记,以加快后续的 MHSA 和 FFN 计算。在相同数量的输入图像标记下,该方法减少了 MHSA 和 ..原创 2022-02-28 17:39:16 · 3812 阅读 · 0 评论 -
【对比学习论文笔记】CMC: Contrastive Multiview Coding
论文地址:http://arxiv.org/abs/1906.05849项目地址:http://github.com/HobbitLong/CMC原创 2022-02-26 13:35:31 · 2667 阅读 · 0 评论 -
【ViT 论文笔记】Vision Transformer for Small-Size Datasets
论文地址:https://arxiv.org/abs/2112.13492项目地址:将 Transformer 结构应用于图像分类任务的 ViT 的性能优于卷积神经网络。 然而,ViT 的高性能源于使用大型数据集(如 JFT-300M)进行预训练,其对大型数据集的依赖被认为是源于其低局部性归纳偏差。本文提出了 Shifted Patch Tokeniza-tion (SPT) 和 Locality Self-Attention (LSA),来解决了缺乏局部性归纳偏差的问题,即使在小型数据集上也能..原创 2022-02-20 13:54:06 · 3420 阅读 · 3 评论 -
【CV Transformer 论文笔记】Intriguing Properties of Vision Transformers
遮挡(Occlusions)对于遮挡的建模,作者采用了一种命名为PatchDrop的方法,即选取所有patches的一个子集,将其像素值置为0;根据子集选取方法的不同又可以划分成三种方法:Random PatchDrop(随机)Salient (foreground) PatchDrop(显著/前景)Non-salient (background) PatchDrop(非显著/背景)在ImageNet的验证集(50K张图片)上进行视觉识别任务的比较,随着不同PatchDrop方法的Infom原创 2021-12-27 13:27:01 · 2345 阅读 · 1 评论 -
【CV Transformer 论文笔记】MAE: Masked Autoencoders Are Scalable Vision Learners
本文的主要观点是:掩码自编码器 (MAE) 是适用于计算机视觉的可扩展自监督学习器。如果说ViT对应于NLP中的Tranformer,MAE实际上是对应于BERT。MAE的核心思想是随机屏蔽输入图像一部分的patches随后重建被屏蔽的像素。 这种将输入映射到潜在表示再重构输入的编码器-解码器结构就叫做Autoencoder。MAE基于2个核心设计:1、非对称编码器-解码器架构,其中编码器仅对可见的patches编码,随后将mask tokens加入编码结果中馈送到轻量级解码器。2、屏蔽输入图像.原创 2021-12-21 18:54:09 · 2386 阅读 · 0 评论 -
【CV Transformer 论文笔记】PS-ViT: Vision Transformer with Progressive Sampling
论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Yue_Vision_Transformer_With_Progressive_Sampling_ICCV_2021_paper.pdf项目地址:https://github.com/yuexy/PS-ViTViT直接将纯Transformer架构应用于图像分类,通过简单地将图像分成固定长度的Tokens,并使用Transformer来学习这些tokens之间的关系。然而,这种朴素..原创 2021-12-20 11:43:10 · 3067 阅读 · 0 评论 -
【论文笔记】MaskFormer: Per-Pixel Classification is Not All You Need for Semantic Segmentation
论文地址:https://papers.nips.cc/paper/2021/file/950a4152c2b4aa3ad78bdd6b366cc179-Paper.pdf项目地址:https://github.com/facebookresearch/MaskFormer现在的方法通常将语义分割制定为per-pixel classification任务,而实例分割则使用mask classification来处理。本文作者的观点是:mask classification完全可以通用,即可以使用..原创 2021-12-19 11:30:39 · 11032 阅读 · 0 评论 -
【论文笔记】Mask2Former: Masked-attention Mask Transformer for Universal Image Segmentation
本文提出了用于通用图像分割(全景、实例或语义)的 Masked-attention Mask Transformer (Mask2Former)。Mask2Former建立在一个简单的元框架 (MaskFormer)和一个新的 Transformer 解码器上,其关键组成部分为掩码注意力(Masked-attention),通过将交叉注意力限制在预测的掩码区域内来提取局部特征。与为每个任务(全景、实例或语义)设计专门模型相比,Mask2Former 节省了 3 倍的研究工作,并且有效节省计算资源。M.原创 2021-12-17 11:40:24 · 19298 阅读 · 0 评论 -
【虚拟试衣论文笔记】CP-VTON+: Clothing Shape and Texture Preserving Image-Based Virtual Try-On
论文阅读笔记CP-VTON+: Clothing Shape and Texture Preserving Image-Based VirtualTry-On原创 2021-12-15 10:10:20 · 4760 阅读 · 6 评论