跨模态
文章平均质量分 91
‘Atlas’
人工智能从业者,崇尚技术,享受学习的过程。主要研究方向:跨模态、文生图、虚拟试衣、目标检测、分割、关键点检测等
展开
-
IDM-VTON-虚拟试衣论文解读
韩国科学技术院提出的IDM-VTON,可在IDM–VTON使用两个不同模块编码衣服图片语义信息:从视觉编码器中提取的高级语义被融合到cross-attention层、将从并行UNet中提取的底层特征融合到self-attention层。在未见过数据集展示出强大泛化性。原创 2024-07-08 13:43:17 · 762 阅读 · 0 评论 -
LLaVA(NeurIPS 2023, Oral)-图文聊天模型论文解读
LLaVA,NeurIPS 2023,微软研究院出品,展示一种创建语言-图像指令跟随数据集流程,基于此训练LLaVA,在ScienceQA数据集经过finetune后达到SOTA。原创 2023-12-27 17:33:26 · 1653 阅读 · 0 评论 -
InstructDiffusion-多种视觉任务统一框架
InstructDiffusion,MSRA出品,InstructDiffusion可处理各种视觉任务,包括理解任务(分割、关键点检测)、生成类任务(编辑和增强)原创 2023-11-29 15:28:37 · 1442 阅读 · 0 评论 -
KOSMOS-G-图像文本结合控制生成
KOSMOS-G,微软出品,通过文本及图像结合生成图片原创 2023-11-14 15:08:14 · 312 阅读 · 0 评论 -
Prompt-To-Prompt——仅通过文本进行图像编辑
Prompt-to-Prompt,google research出品,仅通过prompt,无需mask即可控制进行图像编辑。原创 2023-09-18 16:01:50 · 1258 阅读 · 0 评论 -
InstructPix2Pix(CVPR2023)-图像编辑论文解读
InstructPix2Pix,CVPR2023,加利福尼亚大学,伯克利分校出品,通过引导语即可完成图像编辑原创 2023-09-06 11:22:37 · 1704 阅读 · 0 评论 -
DIFFEDIT-图像编辑论文解读
DIFFEDIT,2022 Meta出品,利用文本进行图像编辑,性能超越SDEdit。原创 2023-08-24 22:34:56 · 633 阅读 · 0 评论 -
SDXL-Stable Diffusion改进版
Stability AI新作,SDXL,与之前Stable Diffusion相比,生成图像质量大幅提升。原创 2023-08-07 21:38:20 · 1758 阅读 · 0 评论 -
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画
AnimateDiff,上海AI实验室出品,可将大多数个性化文生图模型进行视频生成,基于简单设计的运动建模模块,在大量视频数据学习运动先验,插入个性化文生图模型用于生成自然合理的目标域动图。原创 2023-07-30 22:20:04 · 7637 阅读 · 3 评论 -
ONE-PEACE论文解读
达摩出品,ONE-PEACE作为一种易扩展的跨模态泛化表征模型,可对齐和集成视觉、语音、语言模态表征,实验结果表明,在多个任务达到前沿效果:图像分类、语义分割、音频-文本检索、音频问答、图文检索、visual grounding。同时具有一定zero-shot检索能力,即使训练集数据模态非成对,也能够对齐模态。原创 2023-07-22 23:04:38 · 583 阅读 · 0 评论 -
gen1-视频生成论文阅读
gen1,Runway出品,作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性,同时利用文本或图片进行内容控制;通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性,通过控制轮次ts控制结构保留度。原创 2023-07-03 21:16:47 · 1350 阅读 · 0 评论 -
DreamBooth论文解读
DreamBooth,Google Research出品。仅需要3-5张目标图片,通过prompt引导就可生成该目标变体。原创 2023-06-19 22:55:36 · 2315 阅读 · 0 评论 -
DragGAN论文阅读
作者提出DragGAN,一种交互式基于点的图像编辑方法,可以依据用户输入操纵图像。这归因于两点:a. 隐向量优化模块,将处理点移动至目标点;b. 点跟踪模块准确跟踪处理点轨迹。DragGAN超越现有基于GAN的图像操纵方法,同时开拓新方向,利用生成先验进行图像操纵。原创 2023-06-13 22:23:22 · 692 阅读 · 0 评论 -
BLIP使用教程
BLIP hugface API调用demo原创 2023-06-04 22:56:59 · 3351 阅读 · 1 评论 -
CLIP使用教程
本地调用Hugging Face中CLIP API教程原创 2023-05-23 22:58:47 · 4506 阅读 · 0 评论 -
多条件引导图像生成-ControlNet安装使用
分割、pose等条件+文本引导图像生成,ControlNet使用教程原创 2023-05-16 23:18:25 · 535 阅读 · 2 评论 -
利用文本描述替换万物(Inpaint-Anything-Description)
Inpaint-Anything-Description,通过文本描述替换目标原创 2023-05-05 21:59:22 · 903 阅读 · 1 评论 -
SAM(2023)-分割万物
Meta新作,SAM通过point、box、text提示进行万物分割原创 2023-04-26 20:09:14 · 3301 阅读 · 0 评论 -
Grounding DINO-开集目标检测论文解读
Grounding DINO在COCO数据集上零样本检测达到52.5AP,在COCO数据集finetune后达到63AP。原创 2023-04-15 13:56:18 · 11057 阅读 · 9 评论 -
Latent Diffusion(CVPR2022 oral)-论文阅读
LDM,CVPR22022 oral。作者提出的LDM在不降低质量情况下,大幅提升扩散模型训练及采样效率。在多个有条件图像生成领域,不需要特定任务结构基于cross-attention有条件机制即可达到SOTA或接近SOTA效果。原创 2023-04-08 09:04:39 · 1860 阅读 · 3 评论 -
SadTalker(CVPR2023)-音频驱动视频生成
SadTalker CVPR2023,作者利用3DMM运动系数作为中间表征,学习其与视频之间关系。原创 2023-03-19 21:19:47 · 2515 阅读 · 0 评论 -
ControlNet-有条件图文生成论文阅读
ControlNet 可以控制大的预训练扩散模型支持额外输入条件,ControlNet端到端的方式学习特定任务条件,即使训练集小(原创 2023-03-08 21:14:02 · 3544 阅读 · 0 评论 -
BLIP2-图像文本预训练论文解读
BLIP-2,基于现有的图像编码器预训练模型,大规模语言模型进行预训练视觉语言模型;BLIP-2通过轻量级两阶段预训练模型Querying Transformer缩小模态之间gap,第一阶段从冻结图像编码器学习视觉语言表征,第二阶段基于冻结语言模型,进行视觉到语言生成学习;BLIP-2在各种视觉-语言模型达到SOTA。比如在zero-shot VQAv2上超越Flamingo80B 8.7%,也证明该模型可以根据自然语言指引进行zero-shot图像到文本生成;原创 2023-02-26 11:25:52 · 13247 阅读 · 14 评论 -
DALLE2-文本图像生成
DALLE2,文本引导图像生成,OpenAI出品原创 2023-01-03 22:29:01 · 1927 阅读 · 0 评论 -
CLIP论文解读
CLIP利用自然语言监督视觉进行预训练,迁移至下游任务取得不错效果,实现文本图像至今跨模态;原创 2022-07-31 23:00:44 · 1821 阅读 · 0 评论