自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李元杰的博客

你好,世界!

  • 博客(5)
  • 收藏
  • 关注

原创 ICCV2023,虚拟试穿COTTON,

Size Does Matter: Size-aware Virtual Try-on via Clothing-oriented Transformation Try-on Network 代码开源地址https://github.com/cotton6/COTTON- size-does-matter论文下载地址https://openaccess.thecvf.com/content/ICCV2023/papers/Chen_Size_Does_Matter_Size-aware_Virtual

2023-10-14 18:31:40 300

原创 多模态基础模型:从专家到通用助手第四章

第四章 统一的视觉模型 在本章中,我们讨论了视觉模型的统一。我们首先概述了视觉模型统一面临的挑战,在第4.1节中为实现这一目标所做的最新努力。接下来是关于(i)第4.2节中,详细讨论如何将闭集模型转换为开集模型;(ii)第4.3节中,如何统一不同粒度的视觉任务;(iii)第4.4节中,如何为视觉构建一个更可提示的界面。最后,我们在第4.5节总结了本章并讨论了未来的趋势。4.1概述在谈论通用统一视觉系统之前,我们重新回顾了语言模型和自然语言处理(NLP)在过去几年中的演变。在2018年之前,不同

2023-10-14 18:09:35 167

原创 微软多模态大模型综述第三章图像生成

第三章 Visual Generation Visual Generation指计算机视觉领域中,使用人工智能模型生成图片或视频的技术。视觉生成的目标是生成高保真的视觉内容,包括图像、视频、神经辐射场、3D点云等。这个主题处于最近流行的AI生成内容(AIGC)的核心位置,这种能力在支持设计、艺术和多模式内容创作等创造性应用中至关重要。它还有助于合成训练数据,帮助理解模型,从而实现了多模式内容的理解和生成闭环。为了利用视觉生成,关键是生成与人类意图严格一致的视觉数据。这些意图作为输入条件(如类别标签、文本

2023-10-14 18:09:02 222

原创 多模态基础模型:从专家到通用助手

这种跨学科的方法结合了NLP和计算机视觉的优点,使研究人员能够开发更健壮和多功能的AI系统,这些系统能够处理视觉信息并通过人机对话生成类似人类的响应。其次,不同粒度级别的不同VL理解任务之间的统一也在积极探索中,例如UniTAB(Yang等,2021)、Unified-IO(Lu等,2022a)、Pix2Seq-v2(Chen等,2022d)等IO统一方法,以及GPV(Gupta等,2022a)、GLIP-v2(Zhang等,2022b)和X-Decoder(Zou等,2023a)等功能统一方法。

2023-10-14 18:08:11 261

原创 CVPR2023,中山大学和字节跳动联合出品--虚拟试穿GP-VTON,已开源!

GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning https://www.koushare.com/video/videodetail/56158https://github.com/minar09/awesome-virtual-try-onhttps://github.com/xiezhy6/GP-VTONhttps://www.drip.co

2023-10-14 18:07:16 1115 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除