Sora到底有多强？

最新推荐文章于 2024-09-13 18:17:45 发布

AI周红伟

最新推荐文章于 2024-09-13 18:17:45 发布

阅读量788

点赞数 24

文章标签： AIGC chatgpt 人工智能

本文链接：https://blog.csdn.net/starzhou/article/details/136488115

版权

OpenAI发布的视频生成模型Sora以其高质量和长时间视频生成能力震撼科技界，挑战现有视频生成技术。尽管存在局限性，但Sora标志着AI视频时代的加速到来，中国AI技术与国际保持同步，引发人才需求和教育领域的新变革。

摘要由CSDN通过智能技术生成

北京时间2月16日凌晨，OpenAI发布文本生成视频的AI模型Sora，瞬时刷屏科技圈，成为2024年开年“顶流”。

官方称，Sora只需文本就能自动生成高度逼真和高质量的视频，且时长突破1分钟。这是继文本模型ChatGPT和图片模型Dall-E之后，OpenAI在视频领域的另一个颠覆性创造。

Sora之前，并不是没有AI生成视频的应用，Runway、Pika、Stable Video Diffusion等公司百舸争流。但如今Sora横空出世，这些公司瞬间变得暗淡无光。

被称是“降维打击”的Sora到底有多强？

“一位时尚的女人走在东京的街道上，街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克，红色长裙，黑色靴子，背着一个黑色钱包。她戴着墨镜，涂着红色口红。她自信而随意地走路。街道潮湿而反光，营造出五颜六色的灯光的镜面效果。许多行人四处走动。”

这是OpenAI在官网介绍视频模型 Sora出现的第一组提示词。这段由Sora自主生成的长达59秒的一镜到底的视频，也是其展现给公众的第一个成果，随即引爆全球网络，实现爆发式的传播发酵。

作为一款视频生成模型，Sora继承了DALL-E 3的画质和遵循指令能力，可以根据用户的文本提示创建逼真的视频。

与其他视频生成模型相比，Sora能够根据提示词生成60s的连贯视频，这对于平均只能生成“4s”视频的全行业来说，造成了“碾压式”的冲击。

此外，Sora在采样的灵活性、视频拓展、镜头语言等方面，也远远领先于其他模型。

在对Sora生成的视频表示震惊之余，各路大佬们也开始纷纷表态：有人吃瓜感慨“gg humans”，竞争对手接受压力并参与“游戏”（game on）；技术大牛深扒核心技术称Sora是一个“数据驱动的物理引擎”（Sora is a data-driven physics engine）......

尽管Sora生成的视频远远高出行业的平均水平，但依旧存在某些局限性。技术报告提到，Sora还存在不准确的物理建模和非自然物体“变形”的例子，以及在模拟对象和多个角色之间的复杂交互，对模型来说通常具有挑战性等。

自谷歌2017年发布Transformer网络结构以来，仅用五年多时间全球已迅速成长出庞大的大模型技术群，衍生出涵盖各种技术架构、各种模态、各种场景的大模型家族。

从文字工作者恐失业的文本大模型 ChatGPT，到设计师恐失业的图片生成模型 Stable Diffusion 和 Midjourney，技术的发展日新月异，大模型正在改变着各行各业。

如今，AI生成视频正迎来爆发期。

此次Sora横空出世，无疑是给AI生成视频添了一把火。

事实上，AI生成视频早已断断续续火了一段时间。2023 年可以看作是 AI 视频爆发的一年。年初，还没有公开的文本到视频模型。仅仅 12 个月后，数十种视频生成产品开始投入使用，全球数百万用户根据文本或图像提示创建短片。

根据美国VC机构a16z的统计，截止到去年11月，文生视频领域发布相关工具与产品达到了21种。

但此时发布产品的多为初创企业，拥有相机平移和变焦以及动作控制功能的在少数，这意味着无法生成拥有更多视觉深度和动态效果的复杂视频。

此外，生成视频的时间也较短，大多在3秒左右，与其说生成的是视频，不如说生成的是GIF动图。

Sora的发布，意味着新一轮人工智能革命的开端，我国AI科技处于怎样的水平，中美之间的差距有多大呢？

去年5月，科技部发布的《中国人工智能大模型地图研究报告》显示，中国研发的大模型数量排名全球第二，10亿参数规模以上的大模型已发布79个，目前与美国保持同步增长态势。

截至2023年6月底，全球人工智能领域独角兽中，108家来自中国，占全球总数的37%。

国内玩家也在积极下场布局AI生成视频。

字节跳动于去年11月18日推出了文生视频模型PixelDance。基础模式下，用户需要提供一张指导图片+文本描述，PixelDance 就可以生成有高度一致性且有丰富动态性的视频。

阿里紧随其后也上线了Animate Anyone模型，需要一张人物照片，再配合骨骼动画引导，就能生成自然的动画视频。

23年末，百度发布了文生视频工具“度加剪辑”，号称“可以一键获取最新热点、ai生成文案、一键生成视频”。百度文心大模型的类似功能则在内测中，不久后会以插件形式开放。

Sora的发布，能否鞭策中国企业进一步突破技术难关，我们不妨拭目以待。

Sora发布前，我国影视行业已经在应用文生视频，作为拍摄辅助。AI可以低成本快速产出分镜，用简单动画预演出演员走位、取景、摄影机角度与运动大方向，提高拍摄效率。而当AI的精细度可以直接参与后期制作，带给行业的冲击是颠覆性的。

关于相关从业者是否会被AI取代，网上争论不断。不过对于Sora这样的复杂系统，人是不可替代的生产力要素，未来，做“工具人”，不如做创造和使用工具的人。

据统计，全球1/7的人工智能顶尖人才在中国，不过相较于产业的迅猛发展，人工智能人才缺口还是非常大。根据中关村产业研究院测算，到2025年，预计北京AI人才需求量为54万人，缺口将达37万，特别是急缺计算理论、人机交互、安全与隐私、计算机系统等方面的顶尖学者。

人工智能也成为近年来新增开设数量最多的专业之一。2018年教育部批准设立人工智能本科专业。经过四轮增开，截至2023年共有499所高校设置人工智能本科专业，其中不乏清华、北大、浙大、复旦等顶尖院校。

AI技术大势滚滚而来，无论于国家，于企业，还是于个人，主动拥抱或许是最好的选择。

特别声明

关注