字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

最新推荐文章于 2024-10-31 17:05:07 发布

画画的小强

最新推荐文章于 2024-10-31 17:05:07 发布

阅读量793

点赞数 18

文章标签：人工智能 AGI 大模型算法语言模型学习资料干货分享

本文链接：https://blog.csdn.net/a1353192296/article/details/142552620

版权

今天，字节的视频生成大模型首次亮相，分分钟化身超级导演，镜头切换、电影质感、多主体交互都能轻松拿捏；其通用模型Pro综合能力提升25%，初始TPM（每分钟处理Tokens数量）支持800k，高于业界其他模型。

这些都是今天字节跳动豆包大模型家族的重磅更新，连添了视频、音乐、同声传译三大新成员；还有文生图模型优化了六类复杂生成，语音合成模型可混合数百种音色……
在这里插入图片描述

其中的重磅发布莫过于视频生成模型，这意味着继快手后，另一大短视频巨头字节（抖音集团）也正式进军AI视频生成赛道。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料。包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。
一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

豆包的视频生成模型可以实现对复杂指令的理解和遵循，平滑实现镜头的变焦、环绕、缩放，保持多镜头切换的一致性以及多尺寸、多风格生成。据火山引擎总裁谭待透露，该模型会在国庆节之后上线到火山方舟平台。

它可以根据提示词生成电影质感的画面：
在这里插入图片描述

超现实的提示词也能轻松应对，如有翅膀的青蛙、浮空小岛中生长的树等：

在这里插入图片描述

在真实使用场景中，人们往往需要不同比例或者尺寸大小的视频，该模型可以满足多比例、多尺寸的视频生成：
在这里插入图片描述

即使视频画面切换，豆包生成的视频镜头仍能保持一致性：
在这里插入图片描述

还有各种或逼真、或科幻的视觉效果：
在这里插入图片描述

今年5月，豆包大模型产品家族首次亮相，目前已经涵盖大语言模型、视觉大模型、语音大模型三大品类发布了13个大模型。此外，豆包通用模型Pro的升级还包括上下文窗口达到256k。

在这里插入图片描述
同时，豆包模型技术已经应用到了剪映、即梦AI和醒图工具中，打造了数字分身生成、内容营销工具等。

01、豆包Pro综合能力提升25%

视频、音乐、同声传译模型亮相

今年5月，豆包大模型产品家族正式发布，火山引擎总裁谭待透露道，截至今年9月，豆包大模型Tokens调用量提升超过10倍，其日均Tokens使用量超过1.3万亿。多模态方面，日均生成图片5000万张，日均处理语音85万小时，这相当于7万天广播节目的总时长。

除此以外，豆包大模型产品家族还迎来三个新成员：视频生成模型、音乐生成模型、同声传译模型。

1、豆包通用模型Pro：初始TPM业界最高，上下文窗口达256k

截至8月底，豆包通用模型Pro综合能力累计提升25%，其中数学能力、专业知识实现超过35%的提升。
在这里插入图片描述

在企业应用场景中，不仅要考虑模型能力，还要考虑成本。谭待谈道，今年5月，火山引擎成为国内第一个将大模型成本降到每1000 token低于一厘钱（0.001元）的公司。这样的大幅降价背后大量创新应用涌现，过去几个月内模型调用量增长突飞猛进。

他补充说，当Tokens的价格不再是阻碍应用创新的阻力，模型的性能又成为应用上量的关键。

豆包Pro模型再次升级。豆包Pro默认的初始TPM支持800k，高于业界其他模型，还可以根据企业具体需求进一步扩容。豆包Pro上下文窗口达到256k，可一次性处理约40万汉字，这相当于一口气读完《三体》的第一部和第二部，同时，谭待还宣布，豆包Pro加量不加价。

在这里插入图片描述

2、视频生成模型：多主体、动作可丝滑交互，镜头平滑切换

豆包大模型家族的第一位重磅新成员就是视频生成模型。

豆包视频生成模型有PixelDance和Seaweed两个版本，PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型，同时支持文生视频和图生视频，能够一次性生成长达10秒的视频片段。

Seaweed版本支持两种文生视频和图生视频两种方式。该技术基于Transformer结构，利用时空压缩的潜空间进行训练，模型原生支持多分辨率生成，适配横屏、竖屏，并能够根据用户输入的高清图像分辨率进行适配和保真。

基于豆包视频生成模型，用户可以通过输入文字和图片获得一段视频。这一模型采用了高效的DiT融合计算单元、全新设计的扩散模型训练方法、深度优化的Transformer结构。

其优势在于首先能实现对复杂指令的理解和遵循，解锁时序性多拍动作指令与多个主体间的交互能力。
在这里插入图片描述

其次是镜头语言，根据Prompt豆包视频生成模型可以让视频在主体的大动态和镜头中进行平滑切换，实现镜头的变焦、环绕、缩放等。
在这里插入图片描述
具体到电商营销、动画教育、城市文旅、微剧本等商业场景应用中，如电商营销场景需要根据商品生成大量配合营销节点的视频素材，以及不同尺寸，豆包视频模型可以做到快速把商品3D化，并配合不同节日替换风格和背景，生成不同尺寸的内容进行发布。