文生视频
文章平均质量分 72
杰说新技术
AIGC最新前言落地技术研讨
展开
-
超越sora,最新文生视频CogVideoX-5b模型分享
CogVideoX-5B 是由智谱AI开发的一款视频生成大模型,它是在先前版本CogVideoX-2B的基础上进行的重大升级。这一版本不仅提高了视频生成的质量,增强了视觉效果,而且还通过优化推理性能,降低了运行所需的硬件门槛,使得更多用户能够在现有的硬件条件下使用这一先进的技术。CogVideoX-5B模型采用了3D因果变分自编码器(3D causal VAE)和专家Transformer技术,结合文本和视频嵌入,使用3D-RoPE作为位置编码,并利用3D全注意力机制进行时空联合建模。原创 2024-09-23 06:00:00 · 589 阅读 · 0 评论 -
最新动态一致的文生视频大模型FancyVideo部署
FancyVideo是由360AI团队与中山大学联合开发的一种创新视频生成模型。FancyVideo模型基于UNet架构,旨在解决现有视频生成模型在动作连贯性和情节流畅性方面存在的问题。FancyVideo通过引入跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM)来改进现有的文本控制机制。实验结果表明,FancyVideo在EvalCrafter Benchmark上的定量评估和其他T2V模型相比,在视频生成质量、文本一致性、运动性和时序一致性方面均原创 2024-09-20 06:00:00 · 355 阅读 · 0 评论 -
超越sora,最强文生视频CogVideo模型落地分享
CogVideo是由智谱AI开源的视频生成模型,它是与商业版视频生成产品“清影”同源的模型。CogVideoX-2B是CogVideoX系列中的第一个模型,拥有20亿参数,支持在单张4090显卡上进行推理,推理时的显存消耗为18GB,微调时显存消耗为40GB。CogVideoX-2B通过3D VAE在空间和时间维度上压缩视频数据,实现了高压缩率和优秀的重建质量。此外,模型还包括编码器、解码器和潜在空间正则化器,通过因果卷积机制确保信息处理的连贯性和逻辑性。原创 2024-08-12 06:00:00 · 1037 阅读 · 0 评论