- 博客(7)
- 收藏
- 关注
原创 BAGEL可控图像编辑
BAGEL是一种基于MoT架构的多模态生成模型,结合了理解与生成双专家系统。它采用Rectified Flow视觉生成模型,通过两个视觉编码器(理解与生成)处理多模态数据,并引入广义因果注意力机制优化跨模态交互。实验表明,BAGEL在指令理解和生成任务中表现良好,但生成的图像质量仍有提升空间。该研究探索了整合Transformer架构在大规模多模态学习中的潜力,为长文本推理和强化学习提供了新的技术方案。
2025-06-11 20:24:03
747
原创 混元3D 2.0论文记录
Hunyuan3D 2.0是腾讯提出的一种基于扩散模型的3D生成框架,由Hunyuan3D-DiT和Hunyuan3D-Paint两部分组成。Hunyuan3D-DiT通过ShapeVAE编码器和flow-based扩散模型生成3D裸模,采用重要性采样和注意力机制提升细节重建质量。Hunyuan3D-Paint则负责生成纹理图,通过多视图合成和纹理烘焙技术实现高分辨率、无缝的纹理生成。模型训练采用多分辨率策略和flow matching损失,纹理合成阶段结合了图像去光照、视角选择和密集视图推理等技术。
2025-05-12 01:35:52
903
原创 Step1X-Edit:通用图像编辑
Step1X-Edit(阶跃星辰)论文:https://arxiv.org/abs/2504.17761代码:https://github.com/stepfun-ai/Step1X-Edit。
2025-05-05 19:34:05
791
原创 InsertAnything论文记录
Insert Anything(浙大、哈佛)论文:https://arxiv.org/abs/2504.15009代码:https://github.com/song-wensong/insert-anything。
2025-04-24 21:52:42
326
原创 3D场景视频生成技术调研
随着LLM、VLM、Diffusion模型、深度估计等技术的进步,3D场景视频的生成可能也是下一个热门方向,并在虚拟现实(VR)、增强现实(AR)和娱乐领域具有广泛的应用前景。本文主要介绍Stanford团队的Wonder系列3D场景漫游视频生成技术。
2025-03-03 13:58:12
1458
原创 双目立体视频生成技术调研
随着AR、VR设备的兴起,双目立体视频在虚拟现实(VR)、增强现实(AR)和娱乐领域具有广泛的应用前景。然而,生成立体视频面临技术挑战,尤其是如何生成自然的立体视差(stereo parallax),即从两个视角观察时物体位置的差异。传统方法通常需要复杂的3D建模或专用的立体录制设备,这限制了其广泛应用。本文主要介绍最新的基于Diffusion的双目视频生成技术。
2025-02-25 15:46:25
1912
原创 ZeroGS从无位姿图像训练3DGS
CF-3GGS利用了DPT单目深度网络预测3DGS位置作为初始化,InstanSplat则采用DUSt3R预测3DGS位置,并计算相近帧的位姿,进行增量重建,但计算量都较大,现存占用很高。本文则用Spann3R直接预测3DGS属性,多视角间3DGS初始化会更好,带来最终位姿估计更准确,pose refine提升作用未知。也许可以采用GSLoc、GSNet等方法固定GS表示,回传梯度更新pose细化当前帧的pose,最后再联合训练。目前该类方法替代colmap还较为困难。
2025-02-16 22:09:08
1430
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人