CVPR
文章平均质量分 89
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CVPR 2025 | 训练效率提升42%!上交&腾讯优图&浙大发布IAR:打破LLM视觉生成瓶颈
针对自回归视觉生成模型中图像与语言的根本差异问题,提出IAR改进方法。研究发现视觉编码空间中相似编码对应相近图像内容,据此设计两项创新技术:(1)基于平衡K-means的码本重排策略,确保簇内编码高度相似;(2)簇导向交叉熵损失,引导模型预测目标Token所在簇而非单一Token。实验表明,该方法显著提升生成质量和训练效率(最大提升42%),在ImageNet上取得FID 2.19、IS 362.0的SOTA效果,且可泛化至LlamaGen、VAR等多种自回归模型。该工作为统一多模态生成提供了新思路。原创 2025-06-15 22:57:41 · 939 阅读 · 0 评论 -
CVPR`25 | SOTA!首揭PCA解决长视频低质问题!FreePCA让长视频丝滑如电影!(中科大)
长视频生成的分布偏移问题使用基于短视频训练的模型生成长视频时,由于帧数变化导致数据分布偏移,出现质量下降、物体缺失和运动缓慢等问题。全局与局部信息难以有效融合现有方法(如全局对齐或局部滑动窗口拼接)无法兼顾全局一致性和局部质量,导致视频出现运动不一致或视觉质量下降。外观与运动耦合的挑战视频中的外观和运动高度耦合,直接融合全局和局部特征会导致生成结果不协调。原创 2025-05-07 22:48:53 · 936 阅读 · 0 评论 -
CVPR 2025 | 数据荒漠终结者!DoraCycle跨模态自循环算法:让生成不再依赖配对数据
复杂领域适应性问题:生成模型在适应复杂领域时,通常需要大量成对的文本-图像数据,但这类数据难以获取且成本高昂。无配对数据的利用:现有的生成模型难以有效利用单模态(如视觉或语言)的无配对数据进行领域适应。跨模态对齐的挑战:在无配对数据的情况下,如何实现视觉和语言之间的跨模态对齐,以支持生成模型的领域适应。原创 2025-03-10 07:37:18 · 1124 阅读 · 0 评论 -
CVPR 2025 | 扩散模型炼出新绝技!注意力蒸馏技术:图像生成效果全面碾压传统方法
现有生成扩散模型在图像风格和语义理解方面虽然有进展,但在将参考图像的视觉特征转移到生成图像中时,使用即插即用注意力特征的方法存在局限性。原创 2025-03-03 07:42:19 · 1790 阅读 · 0 评论
分享