视频生成跨越式突破，智象未来（HiDream.ai）智象大模型2.0迈入分钟级行列

本文链接：https://blog.csdn.net/u013368359/article/details/141124333

近日，智象未来（HiDream.ai）智象大模型2.0在文生视频领域取得了重大突破，将视频生成时长从去年的15秒提升至分钟级别，这是继去年12月打破4秒时长限制后的又一技术飞跃。

智象未来（HiDream.ai）智象大模型2.0的文生视频功能在时长、画面自然度、内容和角色一致性方面均有显著提升，这得益于其自研的DiT架构。与传统U-Net架构相比，DiT架构具有更高的灵活度，能够有效提升图像和视频的生成质量。众所周知，DiT 架构的基础实现依赖于 Transformer 技术。为了进一步提升这一技术的性能，智象未来（HiDream.ai）智象大模型 2.0 对整个Transformer网络结构、训练数据的构成和训练策略上采用完全自研的模块，特别是在训练策略方面进行了深度研究和改进。

该模型采用了高效的时空联合注意力机制，不仅适应了视频的空间域和时间域特征，还解决了传统注意力机制在训练过程中的速度问题。为了支持更长视频片段的训练，智象未来（HiDream.ai）智象大模型2.0能够处理几分钟甚至十几分钟的视频片段，使得直接输出分钟级时长的视频成为可能。同时，智象未来（HiDream.ai）还自研了视频描述生成的Captioning Model，实现了对视频内容的详细且精准描述。

在训练策略上，智象未来（HiDream.ai）智象大模型2.0利用不同长度的视频片段进行视频和图片数据的联合训练，并动态调整不同长度视频的采样率，以完成长镜头训练。此外，模型还根据用户反馈数据进行强化学习，进一步优化性能。

从原来的15秒左右延长至分钟级别，智象未来（HiDream.ai）的智象大模型2.0现已实现视频生成时长的显著提升，达到了行业领先水平。除了视频时长进入分钟级别这一重大进步外，此次升级的另一个亮点是视频时长和尺寸的可变性。以往的视频生成模型通常是预设固定时长，用户无法进行选择。而智象未来（HiDream.ai）则将选择权交给了用户，用户既可以直接指定视频时长，也可以根据输入的Prompt内容，让系统动态判断。内容复杂时，系统会生成较长视频；内容简单时，则生成较短视频，以这种动态调整的方式，自适应地满足用户的创作需求。同时，视频的尺寸也可根据用户需求进行定制，这一灵活的设计大幅提升了用户体验。

值得一提的是，智象未来（HiDream.ai）的智象大模型2.0在视频画面观感上也有了显著的提升，物体动作表现得更加自然流畅，细节渲染更为精细，并且支持了4K超清画质。随着这次技术升级，智象未来（HiDream.ai）智象大模型2.0正朝着生成更高质量的多镜头视频方向快速发展，并向L3阶段加速前进。据了解，升级后的文生视频功能即将投入使用，届时用户将能够体验到更加丰富和高质量的视频生成服务。

业内人士表示，随着智象未来（HiDream.ai）智象大模型2.0的不断完善和升级，其有望为视频内容创作领域带来更多革命性的变化，助力广大用户轻松实现创意变现，推动整个行业迈向更加广阔的发展空间。