AIGC
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
角色动画最新SOTA!港大&蚂蚁等CoDance:解绑-重绑实现任意数量、位置角色同屏起舞
摘要:本文提出CoDance框架,创新性地解决多主体动画生成中的"四个任意"挑战(任意主体类型、数量、空间位置和姿态)。通过提出"解绑-重绑"范式,该方法打破了传统刚性空间对齐限制:Unbind模块采用姿态偏移编码器实现动作语义解耦,Rebind模块通过文本提示和主体掩码实现精确重绑定。实验表明,CoDance在新建的CoDanceBench和现有基准上均取得SOTA性能,用户调研显示其在视频质量(0.90)、身份保持(0.88)和时序一致性(0.83)方面显著领先。该框架为多主体动画生成提供了新的解决方案原创 2026-01-28 00:02:30 · 983 阅读 · 0 评论 -
告别时空崩坏,生成式游戏迎来“稳态”时刻!南大等StableWorld:打造无限续航虚拟世界
解决的问题当前交互式视频生成模型(如世界模型)在生成长时间序列时,存在严重的稳定性不足与时间不一致性问题,表现为空间漂移和场景崩塌。即使在没有交互或静态场景下,模型也会因误差累积导致生成帧逐渐偏离初始状态,破坏时间一致性。提出的方案提出框架,其核心是动态帧淘汰机制。在滑动窗口生成过程中,动态评估并保留几何一致性的关键帧(尤其是早期较“干净”的帧),淘汰退化或冗余的中间帧,从而从源头抑制误差累积。应用的技术使用算法计算视角重叠度,以评估帧间几何一致性。采用KV-cache 窗口扩展。原创 2026-01-26 23:19:41 · 956 阅读 · 0 评论 -
强势斩获6项SOTA!UniCorn打通理解与生成任督二脉,靠“内省”重构多模态认知
本文提出UniCorn,一种自监督框架,用于解决统一多模态模型(UMMs)中“理解能力强但生成能力弱”的“传导性失语症”问题。UniCorn通过多角色自我博弈(提议者、求解者、裁判)生成高质量数据,并结合认知模式重构(描述、判断、反思)实现自我提升,无需外部监督。实验表明,UniCorn在TIIF(73.8)、DPG(86.8)等基准上达到SOTA性能,并在新提出的UniCycle基准(T2I2T循环一致性)上验证了多模态智能的协同性。该方法仅需5k自生成数据即超越依赖30k GPT-4蒸馏数据的模型.原创 2026-01-12 23:14:55 · 964 阅读 · 0 评论 -
英伟达甩出“核弹级”Nemotron 3全家桶!Mamba+MoE架构:百万上下文+极致性价比
推出了 Nemotron 3 系列模型(Nano, Super, Ultra),该系列模型完全开源(包括权重、数据和训练配方)。: 采用了混合 Mamba-Transformer 的专家混合(MoE)架构,实现了极致的推理效率和吞吐量。: 支持高达 1M token 的上下文长度,且在长序列推理中表现优异。: Super 和 Ultra 模型引入了 LatentMoE 和 NVFP4 训练,进一步优化了精度与效率的平衡。原创 2026-01-07 12:59:20 · 1412 阅读 · 0 评论 -
复刻“黑客帝国”子弹时间!SpaceTimePilot:视频变可操控4D游戏,倒放/变速/运镜随你掌控
SpaceTimePilot:首个实现动态场景时空联合控制的视频扩散模型 本文提出了SpaceTimePilot,这是首个能够从单目视频实现对动态场景进行联合空间(摄像机视角)和时间(运动序列)控制的视频扩散模型。主要创新包括:1)引入动画时间嵌入机制,通过1D卷积层将时间控制参数编码注入模型,实现慢动作、反向播放等精细时间控制;2)设计时间扭曲训练方案,增强现有数据集以模拟多样化时间差异;3)构建Cam×Time合成数据集,提供密集时空采样监督;4)改进摄像机条件机制,支持任意初始姿态控制。原创 2026-01-06 13:22:55 · 989 阅读 · 0 评论 -
港中文&字节联合推出DreamOmni3:解锁“涂鸦+图文”联合输入,重新定义多模态生成与编辑
《DreamOmni3:基于涂鸦的多模态图像编辑与生成框架》提出了一种创新性解决方案,通过整合文本、图像和涂鸦指令,显著提升了图像编辑的交互灵活性与精确度。研究定义了两类新任务(基于涂鸦的编辑与生成),并构建了包含10万+样本的高质量数据集。核心创新在于联合输入方案设计,通过共享索引与位置编码实现涂鸦区域的精准定位,避免了传统二值掩码的局限性。实验表明,该框架在人工评估中优于GPT-4o等主流模型,尤其在保持编辑一致性和消除涂鸦痕迹方面表现突出。这项工作为多模态图像创作提供了新的研究范式和技术基准。原创 2026-01-05 13:24:39 · 823 阅读 · 0 评论 -
口型匹配、身份保持全面SOTA!清华&可灵X-Dub:抛弃修复思维,用“编辑”实现精准同步!
本文提出X-Dub框架,将视觉配音从掩码修复任务重构为条件良好的视频到视频编辑任务。通过基于DiT的生成器创建嘴型变化的对齐视频对作为训练数据,使编辑器能在完整视觉上下文中学习配音。创新性地采用时间步自适应多阶段学习策略,将不同扩散阶段与结构、嘴部运动和纹理细节学习目标对齐。实验表明,X-Dub在HDTF和新基准ContextDubBench上均达到SOTA性能,在遮挡、动态光照等复杂场景中展现出卓越的鲁棒性,显著优于现有方法。该工作为缺乏成对数据的条件视频编辑任务提供了新思路。原创 2026-01-04 13:30:32 · 679 阅读 · 0 评论 -
首个亚秒启动的14B“数字人”开源!效率飙23倍!SoulX-LiveTalk:32FPS让对话丝滑如真人
SoulX-LiveTalk提出了一种14B参数的实时音频驱动虚拟形象框架,通过创新的双向蒸馏策略和全栈优化实现高效生成。该框架摒弃传统单向范式,采用双向注意力机制增强运动连贯性,结合多步自校正机制防止长周期误差累积。通过混合序列并行、并行VAE等优化技术,系统在8个H800节点上实现0.87秒启动延迟和32FPS吞吐量。实验表明,该框架在视觉质量、唇音同步和长期稳定性上均优于现有方法,训练效率提升23倍。未来将探索模型轻量化以降低硬件需求。原创 2026-01-04 13:24:05 · 740 阅读 · 0 评论 -
顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!
论文链接:https://ieeexplore.ieee.org/abstract/document/11206511代码链接:https://github.com/bytedance/RealCustom项目链接:https://corleone-huang.github.io/RealCustom_plus_plus/突破传统方法存在的主体一致性和文本可控性之间的权衡取舍问题,创新性地将参考图主体表征为真实文本单词,通过解耦文本和参考图的影响区域,同时实现高度主体一致性和文本可控性;原创 2025-12-24 23:36:20 · 364 阅读 · 0 评论 -
加速近200倍!RTX 5090生成高质量视频只要1.9秒!清华&生数等重磅开源TurboDiffusion
文章链接:https://arxiv.org/pdf/2512.16093代码链接: https://github.com/thu-ml/TurboDiffusion提出了一种端到端的视频生成加速框架,在保持视频质量的同时,将扩散模型的生成速度提升了。单张 RTX 5090 GPU 上,该框架能将原本耗时数分钟甚至数小时的视频生成过程缩短至几秒钟(例如从 184 秒缩短至 1.9 秒),实现了实时级别的视频生成体验。原创 2025-12-22 21:43:57 · 996 阅读 · 0 评论 -
彻底告别VAE!清华x可灵联手开源SVG-T2I:生成理解合二为一,性能媲美SD3
核心挑战:视觉基础模型虽然在理解与感知上表现出色,但其表征空间尚未被充分用于大规模、高质量的视觉生成。研究空白:在VFM特征空间内端到端地训练大规模文本到图像生成模型是一个未经充分探索的领域,缺乏相关验证和可行的方案。原创 2025-12-18 07:48:18 · 879 阅读 · 0 评论 -
直播革命来了!StreamDiffusionV2:140亿参数实时视频飙上58FPS!伯克利&韩松团队等
弥合了离线视频扩散与受实时SLO约束的直播流媒体之间的差距。本免训练系统将SLO-aware批处理/块调度器与sink-token引导的滚动KV缓存、运动感知噪声控制器以及pipeline编排相结合,后者通过并行去噪步骤和模型层实现近线性FPS扩展,而不违反延迟要求。它在异构GPU上运行,支持灵活步骤计数,实现0.5 s TTFF,并在4×H100上达到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步骤增加也能维持高FPS。原创 2025-12-17 07:56:12 · 596 阅读 · 0 评论 -
Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!
解决的问题:当前基于指令的图像编辑模型通常依赖于监督微调训练,这导致模型在标注模式上过拟合,限制了它们在训练分布之外的探索和泛化能力。此外,编辑指令和任务的多样性使得缺乏通用的奖励模型。提出的方案:引入Edit-R1框架,该框架基于策略优化,结合了扩散负面感知微调(DiffusionNFT)和多模态大语言模型(MLLM),以提供免训练的奖励机制,帮助解决模型在不同指令环境下的泛化问题。应用的技术。原创 2025-12-16 13:56:35 · 808 阅读 · 0 评论 -
视频模型降维打击?浙大&哈佛提出 IF-Edit:无需训练,用“生成视频”的思路修图!
IF-Edit 给我们提供了一个全新的视角:图像编辑不仅仅是 Image-to-Image 的翻译,更可以是 Image-to-Video-to-Image 的世界模拟。通过复用强大的视频生成模型,我们无需收集昂贵的成对编辑数据,就能实现懂物理、懂因果的 Zero-Shot 图像编辑。随着视频模型(如 Sora, Wan, HunyuanVideo)的不断进化,这种“降维打击”式的修图方法或许会成为未来的主流。原创 2025-12-16 13:52:48 · 941 阅读 · 0 评论 -
NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”
Wan-Move,一个用于视频生成中精确的运动控制的简单且可扩展的框架。通过点轨迹表示运动,并通过空间映射将其传输到潜在坐标,无需额外的运动编码器。通过隐空间特征复制将轨迹引导注入第一帧条件特征,在不改变架构的情况下实现了有效的运动控制。原创 2025-12-15 23:09:53 · 1328 阅读 · 0 评论 -
一张照片,秒变专属电影!字节最新Lynx黑魔法护航高保真个性化视频生成
Lynx是一个高保真的个性化视频生成框架,通过两个轻量级适配器(ID-adapter和Ref-adapter)实现从单张图像中保留主体身份。ID-adapter通过交叉注意力注入面部识别特征,Ref-adapter整合VAE编码器的密集特征以增强细节保留。该框架采用时空帧打包和渐进式训练策略,在包含40个主体和20个提示的基准测试中展现出卓越的面部相似性和视频质量,同时保持自然的动作和语义对齐,超越了现有方法。Lynx为个性化视频生成提供了身份保留与生成质量的平衡解决方案。原创 2025-10-11 13:21:50 · 756 阅读 · 0 评论 -
不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全
摘要:本文提出VideoCanvas框架,统一解决任意时空视频补全任务,涵盖图像到视频、视频扩展、修补等场景。通过混合条件策略(空间零填充+时间RoPE插值),在冻结VAE的DiT模型上实现像素级控制,无需重新训练。构建VideoCanvasBench基准测试表明,该方法在保真度、动态性和一致性上优于现有技术,支持灵活的时间戳和空间区域控制,为可控视频生成提供了新范式。原创 2025-10-11 13:18:17 · 1087 阅读 · 0 评论 -
通用具身智能要来了!卡内基梅隆&Meta发布效率之王MetaVLA:训练步数降3倍,GPU时间少76%
MetaVLA:高效多任务协同训练的视觉-语言-动作模型后训练框架 本文提出MetaVLA框架,针对当前视觉-语言-动作(VLA)模型存在的任务依赖性强、计算成本高和泛化能力弱等问题,通过元学习协同训练机制实现高效后训练。该框架采用基于注意力神经过程(ANP)的记忆增强模块Meta-Action-Reasoner,集成多样辅助任务提升泛化性,同时保持主干架构无关性。原创 2025-10-10 13:08:20 · 709 阅读 · 0 评论 -
AI配音新王者!快手AudioGen-Omni:视频喂给它,歌声/语音/音效秒出,唇形精准到帧!
AudioGen-Omni 首个统一多模态框架,支持视频同步生成多样化音频(通用音频、语音、歌曲)。该模型采用多模态扩散Transformer(MMDiT)架构,通过相位对齐位置注入(PAAPI)技术实现精确的视听同步。创新性地使用轻量级歌词-转录模块实现帧对齐表示,无需音素时长监督。模型在联合训练范式下,利用大规模多模态数据,支持灵活的条件输入(视频/文本/音频任意组合)。实验表明,其在音频质量、语义连贯性和时序对齐方面均达到SOTA水平,8秒音频生成仅需1.91秒。原创 2025-08-05 21:36:11 · 1896 阅读 · 0 评论 -
一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!
阿里等发布FantasyTalking,通过单张照片+音频,实现与输入音频对应的、包含背景和上下文对象(而不仅限于肖像本身)的连贯全局运动,并能够构建精确对齐的唇部运动视频。原创 2025-04-11 23:26:45 · 1540 阅读 · 0 评论 -
2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。原创 2024-10-17 22:13:24 · 1501 阅读 · 0 评论 -
视频生成的黎明:100+页干货全面探讨SORA类模型(T2V&I2V&V2V全包括)腾讯&中科大
总之,本报告全面探讨了SORA类模型在高质量视频生成中的应用,涵盖了T2V、I2V和V2V任务。通过设计一系列详细的提示和案例研究,系统地评估了这些模型在各种场景中的进展、挑战和潜在应用。分析突显了视频生成领域所取得的显著进展,尤其是在视觉质量、运动自然性和动态性以及视觉-语言对齐方面。原创 2024-10-10 08:52:18 · 2185 阅读 · 0 评论 -
小红书开源StoryMaker:个性化图像生成模型,实现角色一致性与背景变化的完美结合
现有的无调优个性化图像生成方法在处理多个角色时,尽管能保持面部一致性,但在场景的整体一致性方面存在缺陷,这影响了叙事的连贯性。给定包含一或两个角色的参考图像,StoryMaker旨在生成一系列新图像,展示相同的角色,保持面部、服装、发型和身体的一致性。通过改变背景、角色的姿势和风格,根据文本提示可以创建叙事。首先使用面部编码器提取角色的面部信息(即身份),并通过角色图像编码器获取他们的服装、发型和身体的细节。原创 2024-09-25 07:32:38 · 3045 阅读 · 0 评论 -
腾讯&新加坡国立发布IFAdapter:即插即用,提升文生图模型实例特征和位置生成准确性
解决的问题传统的文本生成图像 (T2I) 扩散模型在生成单个实例时效果很好,但在多个实例的特征生成和准确定位上存在挑战。尽管布局生成图像 (L2I) 任务通过使用边界框提供空间控制来解决定位问题,但在实例特征的精确生成上仍然不足。提出的方案为了解决这一问题,提出了实例特征生成 (IFG)任务,旨在同时确保生成实例的准确定位和特征保真度。为此,引入了实例特征适配器 (IFAdapter),作为一种模块,能够在不同模型中灵活应用。原创 2024-09-20 09:16:37 · 1132 阅读 · 0 评论 -
时尚穿搭想换就换,各种风格一键完美搭配!亲测在线虚拟试衣换装平台效果超赞!
DressPlay是一款专为追求时尚或有特定穿搭需求的用户量身定制的换装应用。通过先进的 AI 技术,DressPlay 为用户提供了一个虚拟试衣间,使用户能够在几秒钟内试穿多种服装,并根据个人喜好进行个性化调整。无论是选择上衣、裤装还是整套装扮,DressPlay 都能一键为用户实现完美搭配。此外,DressPlay拥有简洁且直观的用户界面,用户可以轻松地浏览、选择和切换不同的服装组合。系统还提供了多种模板和风格选项,满足多样化的时尚需求。原创 2024-09-12 12:31:42 · 2387 阅读 · 0 评论 -
生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!
文章链接:https://arxiv.org/pdf/2408.14975项目链接:https://megactor-ops.github.io/一种新颖的混合模态扩散Transformer(DiT),能够有效整合音频和视觉控制信号。相较于之前基于UNet的方法,这是首个基于DiT框架的人像动画方法。一种新颖的“模态解耦控制”训练策略,能够解决视觉泄露问题,并有效平衡视觉和音频模态之间的控制强度。原创 2024-09-11 22:56:43 · 1294 阅读 · 0 评论 -
高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX
给定 个稀疏视角(即,少至两个)图像 ,其中 ,目标是重建基础的3D场景,并合成未见视角的新视图。在框架 ReconX 中,首先从 中构建一个全局点云 ,并将 投影到3D上下文表示空间 中,作为结构指导。然后,将 注入视频扩散过程中,以生成3D一致的视频帧 ,其中 ,从而创建更多的观测。为缓解生成视频间不一致性导致的负面伪影,我们利用来自 DUSt3R 模型的置信度图 和 LPIPS 损失来实现鲁棒的3D重建。通过这种方式,我们能够释放视频扩散模型的全部潜力,从非常稀疏的视角中重建复杂的3D场景。原创 2024-09-10 09:09:59 · 2136 阅读 · 0 评论 -
兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!
文章链接:https://arxiv.org/pdf/2408.15914CoRe只用于输出embedding和注意力图,不需要生成图像,可以用于任意提示。在身份保护和文本对齐方面表现出优越的性能,特别是对于需要高度视觉可变性的提示。除了个性化一般对象外,方法还可以很好地实现人脸个性化,与最近的三种人脸个性化方法相比,生成了更多保留身份的人脸图像。近年来,文本到图像的个性化生成技术取得了显著进展,能够针对用户提供的概念实现高质量且可控的图像合成。原创 2024-09-10 08:26:45 · 1203 阅读 · 0 评论 -
长视频生成再突破!高质量连贯达600帧 | ConFiner:专家链加持的免训练长视频生成器
视频生成质量低:难以同时实现高质量的时间和空间建模。生成过程耗时:通常需要数百次推理步骤,时间成本较高。生成视频长度短:由于VRAM限制,生成视频的长度通常只有2-3秒。模型负担重:单一模型处理复杂的多维度视频生成任务,难以兼顾所有需求。原创 2024-09-09 23:50:07 · 2138 阅读 · 0 评论 -
单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
现有基于Transformer的UNet模型在生成高分辨率视觉内容时面临时间和内存复杂度的挑战,特别是在处理空间token数量时。原创 2024-09-08 08:36:24 · 1704 阅读 · 0 评论 -
ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer:零样本精确控制图像生成
最终,风格嵌入和文本嵌入被结合,并输入到SD的文本编码器中,这样风格图像就可以作为风格提示来生成图像,从而更好地描述所需风格。同时,风格和内容在各自独立的语义空间中处理,避免了风格和内容之间的重叠。例如,在生成的图像中,尽管包含了山脉和向日葵,但参考图像中的人类也出现在了结果中。这种方法帮助模型在嵌入空间中将相同风格的图像聚集在一起,而将不同风格的图像分散开来,从而增强了风格编码器处理新风格的鲁棒性。由于本文方法能够保持参考图像中的风格,如果使用多张不同风格的图像作为参考,则风格融合会产生新的风格。原创 2024-09-07 21:29:52 · 1986 阅读 · 0 评论 -
风格控制水平创新高!南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架
比较了最近的几种先进的基于反演的风格识别方法,包括Chung等人(2024)的StyleID、Hertz等人(2024)的StyleAligned方法,以及基于Transformer结构的StyTR2 Deng等人(2022)。所提出的风格迁移模型CSGO,如下图4所示,旨在实现任意图像的任意风格化,而无需微调,包括素描和自然图像驱动的风格迁移、文本驱动的风格化合成以及文本编辑驱动的风格化合成。所提出的方法支持文本驱动的风格控制,即给定一个文本提示词和一个风格图像,生成具有相似风格的图像。原创 2024-09-07 21:15:59 · 1746 阅读 · 0 评论 -
最高加速超4倍!不依赖特定模型的统一模型压缩框架CPD发布(卡尔斯鲁厄理工学院)
下图2展示了本文方法的概述。本文的方法依赖于三个组件的结合。如前所述,需要确保输入到模型中特定操作(如加法和乘法)的维度匹配。为此,引入了一种分层依赖解析算法,旨在检测这些依赖关系。该算法生成了一组耦合组,其中包括需要同时剪枝的参数以保持一致的通道维度。基于这些耦合组,可以开始对给定模型进行剪枝。不是随机选择一个组并剪枝其中的神经元,而是使用基于Hessian的重要性评分对神经元进行排序,根据其重要性在每次迭代中移除最不重要的神经元。原创 2024-08-29 09:17:21 · 1318 阅读 · 0 评论 -
超越Text2Video-Zero|无需额外训练,条件生成、专门生成和指令引导的视频编辑全搞定!
论文链接:https://arxiv.org/pdf/2407.21475github链接: https://densechen.github.io/zss/本文提出了一种新颖的zero-shot视频采样算法,该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。本文提出了一个依赖噪声模型和时间动量注意力机制,首次能够灵活地控制生成视频中的时间变化。通过广泛的应用展示了本文方法的有效性,包括条件和专门的视频生成,以及由文本指令指导的视频编辑。原创 2024-08-29 08:44:03 · 872 阅读 · 0 评论 -
统一单ID和多ID个性化框架!阿里发布UniPortrait:质量和多样性超越现有方法
文章链接:https://arxiv.org/pdf/2408.05939git链接:https://aigcdesigngroup.github.io/UniPortrait-Page/demo链接:https://huggingface.co/spaces/Junjie96/UniPortrait本文提出了UniPortrait,一种创新的人像图像个性化框架,统一了单ID和多ID的定制,具有高面部保真度和可控性;原创 2024-08-28 09:07:14 · 1173 阅读 · 0 评论 -
像艺术家一样画画:通过构图、绘画和润色用扩散模型生成复杂场景(国科大&美图)
复杂场景的生成不足:尽管文本生成图像的扩散模型在图像质量上取得了显著进展,但复杂场景的生成仍然相对未被充分探索。“复杂场景”定义不明确:关于“复杂场景”的具体定义尚不清晰,导致难以有效处理这类生成任务。原创 2024-08-28 08:55:29 · 1209 阅读 · 0 评论 -
史上最强文生图模型?谷歌Imagen3内部详细评估资料解读
文章链接:https://arxiv.org/pdf/2408.07009Imagen 3,目前Google最好的文生图扩散模型,是一种潜在扩散模型,可以从文本提示生成高质量的图像。详细描述了 Imagen 3 质量和责任评估,发现Imagen 3相比其他SOTA模型更受欢迎。讨论了安全和表征问题,以及用于最小化本文模型潜在危害的方法。原创 2024-08-18 22:25:29 · 2722 阅读 · 0 评论 -
图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)
为了避免涉及非文本区域的边缘,引入了一个轻量级文本检测模块,用于过滤掉无用的边缘,以进行文本分割。如图5所示,所提出的EAFormer在文本边缘的表现优于之前的方法,这得益于引入的边缘信息。尽管上表3表明,当使用重新标注的数据集进行训练和测试时,本文的方法性能有所下降,但下图5中的可视化结果表明,本文的模型在重新标注的数据集上能够实现更好的分割结果。尽管PGTSNet已经意识到文本边缘的重要性,并使用了二元交叉熵损失来检测文本边缘的像素,但它未能明确地将易于获取的文本边缘信息作为输入信息之一。原创 2024-08-12 20:15:52 · 2182 阅读 · 0 评论 -
视觉效果超赞!随意画个草图就能生成3D交互游戏场景!腾讯XR出品
文章链接:https://arxiv.org/pdf/2408.04567 项目地址:https://xrvisionlabs.github.io/Sketch2Scene/亮点直击可控的、基于草图指导的2D isometric图像生成流程。一个基底图修补模型,通过在新数据集上进行逐步展开的去噪扩散训练。基于学习的组合式3D场景理解模块。一个程序化生成流程,用于使用上述场景理解模块获得的场景参数渲染互动3D场景。3D内容生成是许多计算机图形应用的核心,包括视频游戏、电影制作、虚拟现实和增强原创 2024-08-12 20:12:07 · 2104 阅读 · 0 评论 -
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
论文链接:https://arxiv.org/pdf/2408.02629项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/git链接:https://github.com/SAIS-FUXI/VidGen引入了一个专门用于训练文本到视频模型的高质量视频数据集。提出了一种多阶段策展方法,在有限计算资源下实现精准且高质量的数据策展。发布了本文的文本到视频模型,该模型生成的高质量视频在性能上超越了当前最先进的方法。原创 2024-08-09 08:52:20 · 1593 阅读 · 0 评论
分享