视频理解
文章平均质量分 89
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
5万吊打百万级SOTA!UTS新作VideoCoF:首创“帧链思维”统一视频编辑模型,效果惊艳!
精度与统一性的两难困境:现有的专家模型依赖掩码,精度高但模型无法统一;而统一的上下文模型虽然架构简洁,但缺乏显式的空间提示,导致指令与区域映射微弱,定位不准。长视频外推能力缺失:现有模型通常难以处理超出训练时长的视频,简单的时序拼接会导致位置编码失效,产生运动错位或伪影。VideoCoF 的提出,打破了视频编辑领域长期存在的“精度 vs 统一性”僵局。通过引入帧链的推理机制(Chain-of-Frames),VideoCoF 证明了让模型先“看懂”再“动手”是提升编辑质量的关键。原创 2025-12-24 23:30:01 · 555 阅读 · 0 评论 -
加速近200倍!RTX 5090生成高质量视频只要1.9秒!清华&生数等重磅开源TurboDiffusion
文章链接:https://arxiv.org/pdf/2512.16093代码链接: https://github.com/thu-ml/TurboDiffusion提出了一种端到端的视频生成加速框架,在保持视频质量的同时,将扩散模型的生成速度提升了。单张 RTX 5090 GPU 上,该框架能将原本耗时数分钟甚至数小时的视频生成过程缩短至几秒钟(例如从 184 秒缩短至 1.9 秒),实现了实时级别的视频生成体验。原创 2025-12-22 21:43:57 · 841 阅读 · 0 评论 -
ICCV`25 | 视频交互“随心所欲”!复旦&通义万相等开源DreamRelation:让想象力从此无边界
项目链接:https://dreamrelation.github.io/文章链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wei_DreamRelation_Relation-Centric_Video_Customization_ICCV_2025_paper.pdf开源链接:https://github.com/ali-vilab/DreamRelation。原创 2025-12-18 13:37:45 · 712 阅读 · 0 评论
分享