论文详解_‘Atlas’的博客-CSDN博客

论文详解

关注

文章平均质量分 92

关注数：文章数：72 文章阅读量：304960 文章收藏量：1203

作者: ‘Atlas’

人工智能从业者，崇尚技术，享受学习的过程。主要研究方向：跨模态、文生图、虚拟试衣、目标检测、分割、关键点检测等

展开

IDM-VTON-虚拟试衣论文解读

韩国科学技术院提出的IDM-VTON，可在IDM–VTON使用两个不同模块编码衣服图片语义信息：从视觉编码器中提取的高级语义被融合到cross-attention层、将从并行UNet中提取的底层特征融合到self-attention层。在未见过数据集展示出强大泛化性。

原创 2024-07-08 13:43:17 · 1239 阅读 · 0 评论
LLaVA（NeurIPS 2023, Oral）-图文聊天模型论文解读

LLaVA，NeurIPS 2023，微软研究院出品，展示一种创建语言-图像指令跟随数据集流程，基于此训练LLaVA，在ScienceQA数据集经过finetune后达到SOTA。

原创 2023-12-27 17:33:26 · 2134 阅读 · 0 评论
InstructDiffusion-多种视觉任务统一框架

InstructDiffusion，MSRA出品，InstructDiffusion可处理各种视觉任务，包括理解任务（分割、关键点检测）、生成类任务（编辑和增强）

原创 2023-11-29 15:28:37 · 1848 阅读 · 0 评论
TopNet-（CVPR2023）前背景图像合成

TopNet，CVPR2023，通过transformer结合目标特征及局部背景特征，预测目标尺度及放置位置，超越现有SOTA方法，并且在真实图片具有泛化性。

原创 2023-11-24 10:50:00 · 1524 阅读 · 0 评论
KOSMOS-G-图像文本结合控制生成

KOSMOS-G，微软出品，通过文本及图像结合生成图片

原创 2023-11-14 15:08:14 · 500 阅读 · 0 评论
Prompt-To-Prompt——仅通过文本进行图像编辑

Prompt-to-Prompt，google research出品，仅通过prompt，无需mask即可控制进行图像编辑。

原创 2023-09-18 16:01:50 · 2174 阅读 · 0 评论
InstructPix2Pix（CVPR2023）-图像编辑论文解读

InstructPix2Pix，CVPR2023，加利福尼亚大学，伯克利分校出品，通过引导语即可完成图像编辑

原创 2023-09-06 11:22:37 · 4776 阅读 · 0 评论
DIFFEDIT-图像编辑论文解读

DIFFEDIT，2022 Meta出品，利用文本进行图像编辑，性能超越SDEdit。

原创 2023-08-24 22:34:56 · 1342 阅读 · 0 评论
SDXL-Stable Diffusion改进版

Stability AI新作，SDXL，与之前Stable Diffusion相比，生成图像质量大幅提升。

原创 2023-08-07 21:38:20 · 2279 阅读 · 0 评论
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画

AnimateDiff，上海AI实验室出品，可将大多数个性化文生图模型进行视频生成，基于简单设计的运动建模模块，在大量视频数据学习运动先验，插入个性化文生图模型用于生成自然合理的目标域动图。

原创 2023-07-30 22:20:04 · 9560 阅读 · 3 评论
ONE-PEACE论文解读

达摩出品，ONE-PEACE作为一种易扩展的跨模态泛化表征模型，可对齐和集成视觉、语音、语言模态表征，实验结果表明，在多个任务达到前沿效果：图像分类、语义分割、音频-文本检索、音频问答、图文检索、visual grounding。同时具有一定zero-shot检索能力，即使训练集数据模态非成对，也能够对齐模态。

原创 2023-07-22 23:04:38 · 1239 阅读 · 0 评论
gen1-视频生成论文阅读

gen1，Runway出品，作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性，同时利用文本或图片进行内容控制；通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性，通过控制轮次ts控制结构保留度。

原创 2023-07-03 21:16:47 · 1658 阅读 · 0 评论
DreamBooth论文解读

DreamBooth，Google Research出品。仅需要3-5张目标图片，通过prompt引导就可生成该目标变体。

原创 2023-06-19 22:55:36 · 3234 阅读 · 0 评论
DragGAN论文阅读

作者提出DragGAN，一种交互式基于点的图像编辑方法，可以依据用户输入操纵图像。这归因于两点：a. 隐向量优化模块，将处理点移动至目标点；b. 点跟踪模块准确跟踪处理点轨迹。DragGAN超越现有基于GAN的图像操纵方法，同时开拓新方向，利用生成先验进行图像操纵。

原创 2023-06-13 22:23:22 · 815 阅读 · 0 评论
SAM（2023）-分割万物

Meta新作，SAM通过point、box、text提示进行万物分割

原创 2023-04-26 20:09:14 · 4212 阅读 · 0 评论
Grounding DINO-开集目标检测论文解读

Grounding DINO在COCO数据集上零样本检测达到52.5AP，在COCO数据集finetune后达到63AP。

原创 2023-04-15 13:56:18 · 14680 阅读 · 9 评论
Latent Diffusion（CVPR2022 oral）-论文阅读

LDM，CVPR22022 oral。作者提出的LDM在不降低质量情况下，大幅提升扩散模型训练及采样效率。在多个有条件图像生成领域，不需要特定任务结构基于cross-attention有条件机制即可达到SOTA或接近SOTA效果。

原创 2023-04-08 09:04:39 · 2418 阅读 · 3 评论
SadTalker（CVPR2023）-音频驱动视频生成

SadTalker CVPR2023，作者利用3DMM运动系数作为中间表征，学习其与视频之间关系。

原创 2023-03-19 21:19:47 · 3126 阅读 · 0 评论
ControlNet-有条件图文生成论文阅读

ControlNet 可以控制大的预训练扩散模型支持额外输入条件，ControlNet端到端的方式学习特定任务条件，即使训练集小（

原创 2023-03-08 21:14:02 · 4630 阅读 · 0 评论
BLIP2-图像文本预训练论文解读

BLIP-2，基于现有的图像编码器预训练模型，大规模语言模型进行预训练视觉语言模型；BLIP-2通过轻量级两阶段预训练模型Querying Transformer缩小模态之间gap，第一阶段从冻结图像编码器学习视觉语言表征，第二阶段基于冻结语言模型，进行视觉到语言生成学习；BLIP-2在各种视觉-语言模型达到SOTA。比如在zero-shot VQAv2上超越Flamingo80B 8.7%，也证明该模型可以根据自然语言指引进行zero-shot图像到文本生成；

原创 2023-02-26 11:25:52 · 22803 阅读 · 15 评论
YOLOv6-3.0-目标检测论文解读

YOLOv6-v3.0，YOLOv6进一步改进，在实时目标检测领域达到SOTA；

原创 2023-02-21 21:30:21 · 3185 阅读 · 1 评论
YOLOv6-目标检测论文解读

YOLOv6在实时目标检测领域取得SOTA性能，超越YOLOX、PP-YOLOE、YOLOv5

原创 2023-02-19 11:05:54 · 3542 阅读 · 0 评论
BERT(NAACL 2019)-NLP预训练大模型论文解读

BERT NAACL 2019 NLP预训练大模型

原创 2023-02-11 16:13:55 · 720 阅读 · 3 评论
HumanNeRF（CVPR2022 oral）-人体重建论文阅读

CVPR2022 HumanNeRF给出复杂动作人体单视角视频，暂停任一帧渲染出任意视角下该人体，甚至360度视角下该人体；

原创 2023-02-05 13:46:20 · 3075 阅读 · 3 评论
AIParsing（TIP2022）-人体解析论文阅读

TIP2022 人体解析SOTA AIParsing

原创 2023-01-17 19:11:46 · 1094 阅读 · 1 评论
DALLE2-文本图像生成

DALLE2，文本引导图像生成，OpenAI出品

原创 2023-01-03 22:29:01 · 2213 阅读 · 0 评论
NAFNet（ECCV 2022）-图像修复论文解读

图像修复新结构NAFNet，非线性激活函数非必须

原创 2022-11-15 09:52:03 · 11884 阅读 · 4 评论
Parsing R-CNN(CVPR2019)-人体实例分析论文解读

本文提出Parsing R-CNN可进行实例级人体分析，在CIHP、MHP v2.0、DensePose-COCO数据集取得SOTA，获得COCO2018挑战赛冠军；

原创 2022-09-12 23:06:41 · 1141 阅读 · 7 评论
wFlow(CVPR2022)-虚拟试衣论文解读

CVPR2022，字节&中山大学，提出wFlow，引入3D信息，达到SOTA效果，尤其在自然场景

原创 2022-08-26 15:06:13 · 3372 阅读 · 5 评论
PHORHUM(CVPR2022)-3D重建论文解读

CVPR2022 Google Research成果，通过一张RGB图片完成人体三维重建，并且带有颜色信息

原创 2022-08-17 23:10:45 · 1527 阅读 · 0 评论
SCHP（CVPR2019）-人体解析论文阅读

SCHP自纠正人体解析算法，CVPR2019 LIP挑战赛第一名

原创 2022-08-09 22:59:56 · 2936 阅读 · 1 评论
CLIP论文解读

CLIP利用自然语言监督视觉进行预训练，迁移至下游任务取得不错效果，实现文本图像至今跨模态；

原创 2022-07-31 23:00:44 · 2044 阅读 · 0 评论
TPS Motion（CVPR2022）视频生成论文解读

本文提出无监督TPS Motion取得SOTA，1、提出thin-plate spline（TPS）运动估计，以生成更灵活光流，将源图特征迁移至目标图特征；2、为了补全缺失区域，使用多分辨率遮挡mask进行有效特征融合。3、额外辅助损失函数用于确保网络各模块分工，使得生成高质量图片；...

原创 2022-07-24 13:12:18 · 3789 阅读 · 0 评论
Few-shot Video-to-Video(NeurIPS 2019)视频生成论文解读

few-shot vid2vid，通过基于样例图片的动态生成权重机制，提升视频生成泛化能力。

原创 2022-07-17 13:55:15 · 790 阅读 · 0 评论
Video-to-Video论文解读

video-to-video视频生成，可输入sketch，mask，pose。

原创 2022-07-09 10:24:44 · 1031 阅读 · 0 评论
DaGAN论文解读

DaGAN用于会讲话的人头视频生成

原创 2022-07-03 18:45:20 · 3114 阅读 · 0 评论
文本识别-SVTR论文解读

SVTR 基于transformer文本识别算法，SVTR-L在英文及中文识别上速度快的同时accuracy高。

原创 2022-06-25 12:41:16 · 4854 阅读 · 0 评论
PP-YOLOE论文解读

PP-YOLOE基于之前PP-YOLOv2进行优化，使用anchor-free算法，更强的backbone及neck。配备了CSPRepResStage、ET-head和动态标签分配算法TAL；PP-YOLOE-l在COCO数据集上，Tesla V100上达到51.4mAP，78.1FPS；超越PP-YOLOv2及YOLOX；...

原创 2022-05-19 22:07:15 · 1977 阅读 · 0 评论
SMPL-论文解读

SMPL，准确表示各种体态、各种自然姿势人体；

原创 2022-05-15 21:21:55 · 2320 阅读 · 3 评论
虚拟试衣-DiOr论文解读

DiOr按照穿衣顺序进行着装；

原创 2022-05-04 15:39:39 · 1829 阅读 · 5 评论

论文详解

作者: ‘Atlas’

IDM-VTON-虚拟试衣论文解读

LLaVA（NeurIPS 2023, Oral）-图文聊天模型论文解读

InstructDiffusion-多种视觉任务统一框架

TopNet-（CVPR2023）前背景图像合成

KOSMOS-G-图像文本结合控制生成

Prompt-To-Prompt——仅通过文本进行图像编辑

InstructPix2Pix（CVPR2023）-图像编辑论文解读

DIFFEDIT-图像编辑论文解读

SDXL-Stable Diffusion改进版

AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画

ONE-PEACE论文解读

gen1-视频生成论文阅读

DreamBooth论文解读

DragGAN论文阅读

SAM（2023）-分割万物

Grounding DINO-开集目标检测论文解读

Latent Diffusion（CVPR2022 oral）-论文阅读

SadTalker（CVPR2023）-音频驱动视频生成

ControlNet-有条件图文生成论文阅读

BLIP2-图像文本预训练论文解读

YOLOv6-3.0-目标检测论文解读

YOLOv6-目标检测论文解读

BERT(NAACL 2019)-NLP预训练大模型论文解读

HumanNeRF（CVPR2022 oral）-人体重建论文阅读

AIParsing（TIP2022）-人体解析论文阅读

DALLE2-文本图像生成

NAFNet（ECCV 2022）-图像修复论文解读

Parsing R-CNN(CVPR2019)-人体实例分析论文解读

wFlow(CVPR2022)-虚拟试衣论文解读

PHORHUM(CVPR2022)-3D重建论文解读

SCHP（CVPR2019）-人体解析论文阅读

CLIP论文解读

TPS Motion（CVPR2022）视频生成论文解读

Few-shot Video-to-Video(NeurIPS 2019)视频生成论文解读

Video-to-Video论文解读

DaGAN论文解读

文本识别-SVTR论文解读

PP-YOLOE论文解读

SMPL-论文解读

虚拟试衣-DiOr论文解读