qq_43314576-CSDN博客

原创 Toward Characteristic-Preserving Image-based Virtual Try-On Network

基于图像的虚拟试穿系统可以让用户在不实际试穿的情况下体验新衣服的效果,这一领域正受到越来越多的研究关注。理想的虚拟试穿系统不仅应该能够将目标服装无缝地变形到最合适的形状,还应该能够很好地保留服装的特征(如纹理、标志、刺绣等)。然而，现有的基于图像的生成方法无法满足这些关键要求，因为它们无法处理输入图像和目标服装之间的大空间错位。为了解决这一问题，本文提出了一种新的可学习的特征保留虚拟试穿网络(CP-VTON)。

2024-10-27 20:40:42 401

翻译 FICE: 基于文本条件的时尚图像编辑与引导生成对抗网络逆过程

FICE的目标是编辑给定的（时尚）图像 I \in {\mathcal{R}}^{3 \times n \times n} ，以符合某些（外观相关的）文本描述 t ，并合成一个相应的输出图像 {I}{f} \in {\mathcal{R}}^{3 \times n \times n} ，尽可能紧密地遵循 t 中表达的语义。在这里，合成过程需要满足以下标准：（1）合成的输出图像 {I}

2024-10-20 19:57:23 229

翻译按示例绘画：基于示例的图像编辑与扩散模型

语言指导的图像编辑最近取得了巨大成功。在本文中，我们研究示例指导的图像编辑以实现更精确的控制。我们通过利用自监督训练来分离和重新组织源图像和示例图像，达到这一目标。然而，简单的方法将导致明显的融合伪影。我们仔细分析了这一点，并提出了内容瓶颈和强增强，以避免直接复制和粘贴示例图像的简单解决方案。同时，为确保编辑过程的可控性，我们为示例图像设计了一个任意形状的遮罩，并利用无分类器指导来提高与示例图像的相似性。整个框架涉及扩散模型的单一前向传播，无需任何迭代优化。

2024-10-14 09:38:23 163

翻译 SmartBrush：基于扩散模型的文本和形状引导的对象修复

通用图像修复旨在通过借用周围信息来完成损坏的图像，这几乎不会生成新内容。相比之下，多模态修复为修复内容提供了更灵活和有用的控制，例如，可以使用文本提示来描述具有更丰富属性的对象，可以使用掩码来约束修复对象的形状，而不仅仅将其视为缺失区域。我们提出了一种新的基于扩散的模型 SmartBrush，用于使用文本和形状引导完成缺失区域的对象修复。虽然之前的工作如 DALLE-2 和 Stable Diffusion 可以进行文本引导的修复，但它们不支持形状引导，而且倾向于修改生成对象周围的背景纹理。

2024-10-13 16:19:27 302

翻译 BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Edi

主题驱动的文本到图像生成模型基于文本提示创建输入主题的新颖呈现。现有的模型存在长时间的微调和难以保持主体保真度的问题。为了克服这些局限性，我们引入了BLIP扩散，这是一种新的主题驱动的图像生成模型，支持多模态控制，使用主题图像和文本提示的输入。与其他主题驱动的生成模型不同，BLIP Diffusion引入了一种新的多模态编码器，该编码器经过预训练以提供主题表示。我们首先按照BLIP-2对多模式编码器进行预训练，以产生与文本对齐的视觉表示。

2024-09-08 16:26:21 194

翻译 Imagic: Text-Based Real Image Editing with Diffusion Models

文本条件图像编辑最近引起了相当人的兴趣。然而目前人多数方法仅限于以下之一:特定的编辑类型(例如，对象叠加、样式转换)、合成生成的图像或需要一个共同对象的多个输入图像。在这篇论文中，我们首次证明了对单个真实图像应用复杂(例如，非刚性)基于文本的语义编辑的能力。例如，我们可以改变图像中一个或多个对象的姿势和构图，同时保其原始特征。我们的方法可以让一只站立的狗坐下，让一只乌展开翅膀等等每个都在其单个高分辨率用户提供的自然图像中。与之前的工作相反，我们提出的方法只需要一个输入图像和一个日标文本(所需的编辑)。

2024-09-01 20:48:17 462 1

翻译 TexFit: Text-Driven Fashion Image Editing with Diffusion Models

时尚图像编辑是为了编辑输入图像，以获得更丰富或独特的视觉服装匹配效果。现有的全局时尚图片编辑方式难以实现丰富及独特的服装搭配效果，而局部时尚图片编辑更符合多样化、个性化的服装搭配需求。局部编辑技术通常依赖于文本和辅助方式（例如，人体姿势、人体关键点、服装草图等）进行图像处理，其中辅助方式有助于定位编辑区域。由于这些辅助方式在实际应用场景中通常涉及额外的工作，因此文本驱动的时尚图像编辑表现出高度的灵活性。

2024-08-23 21:19:57 444

原创基于沙漏标记的高效三维人体姿态估计框架HoT

HoT是第一个基于 Transformer 的高效三维人体姿态估计的即插即用框架。如下图所示，传统的 VPT 采用了一个 “矩形” 的范式，即在模型的所有层中维持完整长度的 Pose Token，这带来了高昂的计算成本及特征冗余。与传统的 VPT 不同，HoT 先剪枝去除冗余的 Token，再恢复整个序列的 Token（看起来像一个 “沙漏”），使得 Transformer 的中间层中仅保留少量的 Token，从而有效地提升了模型的效率。

2024-06-16 14:19:06 1134

原创基于细节增强卷积和内容引导注意的单图像去雾

本周主要阅读了文章，DEA-Net：基于细节增强卷积和内容引导注意的单图像去雾。该论文提出了提出了一种细节增强注意力块（DEAB），该模块由一个细节增强卷积（DEConv）和一个内容引导的注意力（CGA）机制组成，使得模型能够更好地保留图像的细节信息，同时又能关注图像中的重要信息，从而达到更好的去雾效果。除此之外，还学习学习了CGA模块的注意力代码模块的学习。本周主要阅读了文章，DEA-Net：基于细节增强卷积和内容引导注意的单图像去雾。

2024-06-06 11:01:02 1265

原创用于密集预测的多路径视觉Transformer

本周主要阅读了2022CVPR的文章，用于密集预测的多路径视觉Transformer，在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处，并提出了一种方法多路径视觉Transformer方法来解决，其主要思路就是通过嵌入CNN对多路径的物体进行特征提取，最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下，都取得比较好的成绩。另外我还对Transformer的相关知识以及代码进行了复习。

2024-06-02 13:15:19 798

原创用于视频识别的快慢网络

本周主要阅读了CVPR文章， SlowFast Networks for Video Recognition。SlowFast模型网络是一种用于视频识别任务的深度学习模型。它的核心思想是将两种不同帧率的路径（慢途径和快途径）结合在一起，以便更好地捕捉视频中的时空特征。一个慢途径和一个快途径。慢途径以较低的帧率运行，负责处理低帧率下的信息，这意味着它具有较低的时间分辨率；而快途径以较高的帧率运行，负责处理高帧率下的信息，具有较高的时间分辨率。除了阅读文献之外，还学习了yoloV5框架的代码知识。

2024-05-26 13:46:06 1124

原创在视频中使用时间卷积和半监督训练进行三维人体姿态估计

本周主要阅读了CVPR文章， 3D human pose estimation in video with temporal convolutions and semi-supervised training。这是一种基于二维关键点和扩张时间卷积的全卷积模型，用于有效估计视频中的三维人体姿态，除此之外，还提出了一种名为“反投影”的半监督训练方法，该方法能够利用未标记的视频数据来增强模型的学习效果，这一过程不仅提高了模型对未标记数据的利用效率，而且显著提升了学习性能。

2024-05-19 20:17:05 1234

原创高效三维人体姿态估计框架HoT

HoT是第一个基于 Transformer 的高效三维人体姿态估计的即插即用框架。如下图所示，传统的 VPT 采用了一个 “矩形” 的范式，即在模型的所有层中维持完整长度的 Pose Token，这带来了高昂的计算成本及特征冗余。与传统的 VPT 不同，HoT 先剪枝去除冗余的 Token，再恢复整个序列的 Token（看起来像一个 “沙漏”），使得 Transformer 的中间层中仅保留少量的 Token，从而有效地提升了模型的效率。

2024-04-28 15:21:51 1251

原创 YOLO世界：实时开放词汇对象检测

本周主要阅读了CVPR文章，YOLO-World: Real-Time Open-Vocabulary Object Detection。是一种先进的实时开放词汇对象检测系统，它基于流行的 YOLO（You Only Look Once）对象检测框架。

2024-04-21 18:22:44 1634

原创 3D场景编辑方法——CustomNeRF

本周主要阅读了CVPR文章，Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global lterative Training。一种将文本描述和参考图像统一为编辑提示的CustomNeRF框架，可以通过微调预训练的扩散模型将参考图像中包含的特定视觉主体V∗嵌入到混合提示中，从而满足一般化和定制化的3D场景编辑要求。除此之外，还学习了简单的Transformer代码的学习。

2024-04-13 14:36:08 834

原创 Learning To Count Everything

本周主要阅读了CVPR文章，Learning To Count Everything。文章提出了一种名为FamNet的新型网络结构，是卷积神经网络（CNN）的改进版本。可以将FAMNet与CNN或其他类型的神经网络结合，形成更复杂的深度学习模型，以处理更复杂的图像识别任务。FamNet利用提供的示例对象和查询图像之间的相似性来估计密度图，从而实现物体计数。。除此之外，还学习学习了RNN代码的学习。循环神经网络（Recurrent Neural Network，RNN）是一种深度学习模型，用于处理序列数据。

2024-03-30 13:50:12 2096

原创基于骨骼的动作识别的行动结构图卷积网络

本周主要阅读了CVPR文章，基于骨骼的动作识别的行动结构图卷积网络。文章提出了一种名为AS-GCN的新型网络结构，用于处理基于骨架数据的人体动作识别问题。AS-GCN通过引入编码器-解码结构的A-link推理模块，可以直接从动作中捕捉到动作特定的潜在依赖关系。AS-GCN还扩展了现有的骨架图，以表示更高阶的依赖关系，即结构链接。通过将这两种类型的链接合并到一个通用的骨架图中。除此之外，还学习学习了U-net代码的学习。本周主要阅读了CVPR文章，基于骨骼的动作识别的行动结构图卷积网络。

2024-03-23 15:30:04 1416

原创带有超令牌采样的视觉转换器

本周主要阅读了CVPR文章，带有超令牌采样的视觉转换器。该论文提出了一个名为SViT的方法，这是一种基于Transformer的模型，SViT主要由以下几个关键组件构成：卷积位置嵌入（CPE）、卷积FFN（ConvFFN）及空间注意力（STA）模块，通过在Transformer中引入卷积层，使得模型能够更好地利用局部信息，同时保持了Transformer对全局信息的建模能力。除此之外，还学习学习了StokenAttention的注意力模块代码的学习。

2024-03-17 13:28:03 1787

原创文献阅读：DEA-Net：基于细节增强卷积和内容引导注意的单图像去雾

本周主要阅读了文章，DEA-Net：基于细节增强卷积和内容引导注意的单图像去雾。该论文提出了提出了一种细节增强注意力块（DEAB），该模块由一个细节增强卷积（DEConv）和一个内容引导的注意力（CGA）机制组成，使得模型能够更好地保留图像的细节信息，同时又能关注图像中的重要信息，从而达到更好的去雾效果。除此之外，还学习学习了CGA模块的注意力代码模块的学习。本周主要阅读了文章，DEA-Net：基于细节增强卷积和内容引导注意的单图像去雾。

2024-03-09 22:58:18 11132 4

原创基于场景文字知识挖掘的细粒度图像识别算法

本周主要阅读了2022CVPR的文章，基于场景文字知识挖掘的细粒度图像识别算法，该论文提出了一种通过挖掘场景文本背后的语义来增强分类模型理解图像内容的方法，该方法利用场景文字作为关键词，到Wikipedia知识库中检索出相关的知识，并获取其特征表达，和图像视觉特征进行融合理解，而并非仅仅利用场景文字的表面语义信息，这种方法能够更好地理解文字语义并不非常直观的内容，从而提升图像识别的性能。除此之外，我还学习复习了RNN的相关知识，并通过其实现过程来进行代码的学习。

2024-02-04 18:05:50 1212

原创一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率

本周主要阅读了2020CVPR的文章，一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率，该论文提出了一种创新的MSFSR模型，旨在提高人脸超分辨率的精度和稳定性。通过多阶段处理和面部边界的增强，提高超分辨率模型对人脸的精细特征的重建能力，该模型能够更好地捕捉和处理人脸的精细特征和表情变化，从而在人脸超分辨率任务中取得更好的性能。除此之外，我还学习复习了LSTM的相关知识，并通过其实现过程来进行代码的学习。

2024-01-27 03:59:09 1102

原创具有运动模糊的大规模场景的混合神经绘制

本周的学习内容主要是以阅读文献为基础，在文献中了解前沿知识。这次共阅读具有运动模糊的大规模场景的混合神经绘制，了解移动运动模糊的神经辐射场中的问题，以及了解文中提出的视点依赖归一化方法的工作原理。此外还学习了解了YOLO模型，了解其大致的工作原理，与先前学习的卷积神经网络模型进行对比，并开始学习MMdetection的相关代码知识。YOLO是一种目标检测模型，全称You Only Look Once，属于目标检测模型的一种。目标检测是计算机视觉中相对简单的任务，旨在在一幅图像中找到特定的物体。

2024-01-21 16:39:47 919

原创神经辐射场（NeRFs）的研究进展

本周主要阅读了2023 Computer Vision and Pattern Recognition的文章，神经辐射场（NeRFs）的研究进展，文章回顾了基本的NeRF框架，并探讨了迄今为止取得的一些最新进展。如PixelNeRF, RegNeRF，Mip-NeRF, Raw NeRF,NeRF in-the-Wild等相关NeRF技术。自2020年NeRF框架开发以来，已经进行了许多变体和扩展，大大提高了其性能和能力。该模型能够实现最先进的结果和逼真的渲染，为这种框架在视图合成和其他领域提供了许多机会。

2024-01-13 22:06:00 2573

原创 1/7文章

本周主要阅读了2023CVPR的文章，具有运动模糊的大规模场景的混合神经绘制，文章提出了一种混合神经渲染模型，用于合成高质量、视角一致的新视角图像。通过结合基于图像的表示和神经3D表示，以及模拟模糊效果，该模型能够有效地处理大型场景中的复杂结构和细节，并减轻运动模糊等缺陷对渲染图像质量的影响。另外我还对VAE的相关知识进行了复习。

2024-01-07 18:51:42 896

原创 12/31

本周主要阅读了2022CVPR的文章，用于密集预测的多路径视觉Transformer，在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处，并提出了一种方法多路径视觉Transformer方法来解决，其主要思路就是通过嵌入CNN对多路径的物体进行特征提取，最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下，都取得比较好的成绩。另外我还对Transformer的相关知识进行了复习。

2023-12-31 13:40:24 870

原创 YOLO模型

本周的学习内容主要是以阅读文献为基础，在文献中了解前沿知识。这次共阅读使用卷积神经网络和区域卷积神经网络(R-CNN)的肺部异常的检测与分类方法，了解了它们在图像识别的优势，以及对医疗诊断贡献。此外还学习了解了YOLO模型，了解其大致的工作原理，与先前学习的卷积神经网络模型进行对比。“You Only Look Once”是一种使用卷积神经网络进行目标检测的算法。YOLO是其中速度较快的物体检测算法之一。虽然它不是最准确的物体检测算法，但是在需要实时检测并且准确度不需要过高的情况下，它是一个很好的选择。

2023-12-24 19:46:40 1336

空空如也

空空如也