腾讯混元3D世界模型1.0震撼开源,重塑数字内容创作生态
7月27日,在2025世界人工智能大会腾讯论坛上,一项具有里程碑意义的技术成果正式亮相——腾讯混元3D世界模型1.0宣告全面开源。这款业界首创的开源模型,突破性地实现了可沉浸漫游、可实时交互、可物理仿真的3D世界生成能力,为游戏开发、虚拟现实(VR)、数字内容创作等多个领域注入了革命性的发展动力。除了这款3D世界模型,腾讯混元还同步公布了涵盖端侧混合推理语言模型、多模态理解模型、游戏视觉模型在内的多项开源计划,展现出构建全方位AI生态的决心。
一句话构建3D世界:创作效率的颠覆性飞跃
作为本次发布的核心亮点,腾讯混元3D世界模型1.0巧妙融合了全景图像合成与分层3D重建技术,突破性地支持文字与图片双模态输入,能够快速生成高质量、风格多变的可漫游3D场景。这意味着,以往需要专业建模团队耗费数周时间精心打造的3D虚拟世界,如今只需一句简单的文字描述或一张参考图片,短短几分钟内就能完整呈现。
如上图所示,左侧界面清晰展示了用户输入“一座中世纪城堡,城堡塔楼宏伟壮阔,城堡周围是一座石头雕像,石头铺成的路以及美丽的花朵,卡通风格”后,模型快速生成的3D场景效果。这一直观的生成过程充分体现了混元3D世界模型在降低创作门槛方面的巨大优势,让游戏开发者能够迅速将创意转化为可视化原型。
对于游戏开发者而言,该模型极大地简化了3D场景的构建流程。生成的标准化3D Mesh文件不仅可直接用于游戏原型搭建或关卡设计,开发者还能灵活调整场景中的前景物体、更换天空背景,轻松满足个性化创作需求。而对于缺乏专业建模经验的普通用户,混元3D创作引擎同样友好易用,只需一句话或一张图,即可生成360°沉浸式视觉空间,并能无缝导入Vision Pro等主流虚拟头显设备,带来身临其境的体验。
此图展示了混元3D世界模型根据“炽热的岩浆形成河流,在黑色熔岩的地表上流动,蒸汽雾霭”这一描述生成的逼真场景。画面中岩浆的流动质感与蒸汽的朦胧效果,凸显了模型在细节刻画和氛围营造上的卓越能力,为影视动画、虚拟文旅等领域的内容创作提供了强大支持。
混元3D世界模型1.0的核心竞争力源于其创新的“语意层次化3D场景表征及生成算法”。该算法能够将复杂的3D世界解构为不同的语意层级,实现前景与背景、地面与天空的智能分离。这不仅保证了生成场景整体视觉效果的逼真度,更能输出标准化的3D Mesh资产,完美兼容Unity、Unreal Engine、Blender等主流创作工具。用户可以对场景内的各个元素进行独立编辑或物理仿真,从而实现AIGC技术与传统CG工作流的无缝衔接,极大提升了创作的灵活性和效率。
与当前全球领先的开源模型相比,混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力等关键评估维度上,均全面超越了现有的SOTA(State-of-the-Art)开源模型。随着该模型的全面开源,腾讯混元正从秒级生成单个3D资产向一键打造可漫游的3D世界稳步迈进,逐步构建起一个完善的3D内容生成生态系统。
基座模型持续领跑,多模态能力全面升级
腾讯混元的模型迭代速度正不断加快。其旗舰模型TurboS自年初发布以来,始终保持着每月一个版本的快速更新节奏,在代码生成、理科推理能力以及复杂指令遵循等方面均取得了显著提升,稳居全球大模型权威排行榜前列。混元TurboS创新性地采用了前沿的混合线性注意力机制与MoE(Mixture of Experts)模型架构,成为业界首个基于混合线性注意力机制落地的超大规模MoE模型,代表了大模型研发领域的重要技术方向。
基于TurboS基座模型,混元T1进一步强化了推理能力。凭借架构上的创新和扎实的工程实现,混元T1在项目级代码生成、高难度数学推理、长文本写作等任务中均展现出卓越性能,综合能力位居国内领先水平。此外,端到端语音模型混元Voice、多模态理解模型混元Vision均构建于混元大语言模型基座之上,继承了其强大的理解、认知与推理能力。特别是在多模态理解领域,混元今年连续发布多款优化模型,在LMArena Vision全球大模型权威榜单中斩获国内榜首,中文能力稳居全球第一梯队。
在多模态生成方面,混元的布局同样全面。其具备超高速生成高清图像的实时生图能力,以及人物一致性可控的视频生成能力。3D生成能力更是处于全球领先地位,最新的混元3D 2.5模型在质感表现上大幅提升,在上海人工智能实验室6月发布的评测中荣获全球第一。这些模型不仅在技术上领先,更在实际生产场景中展现出巨大价值。全球首个AI设计智能体Lovart已首选调用混元3D模型的API接口,知名3D打印公司拓竹科技旗下的模型平台MakerWorld也已成功接入混元3D模型,推动3D打印内容创作的智能化升级。
全面拥抱开源,共建繁荣AI社区生态
在本次大会上,腾讯混元进一步明确了其全面拥抱开源的战略路线。除了本次发布即同步开源的混元3D世界模型1.0外,混元还计划在月底开源一系列小尺寸模型,包括0.5B、1.8B、4B、7B参数的混合推理模型。这些轻量级模型具备部署便捷、资源消耗低的特点,将进一步降低开发者的使用门槛。
此前,腾讯开源的企业级混合推理大语言模型混元-A13B已引起业界广泛关注。该模型在总参数80B、激活参数仅13B的情况下,性能可媲美同等架构的领先开源模型,同时拥有更快的推理速度和更高的性价比。发布仅3天,混元-A13B就在Hugging Face社区登上模型趋势榜第二名,充分体现了社区对其技术价值的高度认可。
腾讯混元还开放了完整的多模态生成能力及工具集插件,陆续开源了业界领先的文生图、视频生成和3D生成能力,提供性能接近商业模型的开源基座,方便社区开发者根据自身业务和使用场景进行定制化开发。目前,基于混元模型衍生的图像模型数量已达1400个,视频衍生模型数量达1600个,混元3D系列模型的社区下载量更是突破230万次,使其成为全球最受欢迎的3D开源模型之一。
开发者可通过以下渠道获取混元3D世界模型1.0及相关资源:项目主页(https://3d-models.hunyuan.tencent.com/world/)、在线体验地址(https://3d.hunyuan.tencent.com/sceneTo3D)以及Hugging Face模型库(https://huggingface.co/tencent/HunyuanWorld-1)。
随着混元3D世界模型1.0的开源,腾讯正以实际行动推动AI技术的普惠发展。从技术突破到生态构建,腾讯混元不仅为数字内容创作带来了效率革命,更通过开源策略汇聚全球智慧,共同探索AI驱动的未来创作新范式。这一系列举措无疑将加速3D内容生态的繁荣,为元宇宙、数字孪生、虚拟现实等前沿领域的发展奠定坚实基础。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



