2024年2月16日OpenAI发布视频生成模型Sora。该模型为文本生成视频模型,模型可根据文本信息生成时长一分钟的高保真视频。Sora具有强劲的视频生成性能,可生成具有多角色、特定运动轨迹的复杂场景视频,并使视频中角色的物理交互符合现实世界物理规律。Sora对AI行业的发展具有里程碑意义,OpenAI将Sora定位为一款世界模拟器的视频生成模型,为未来发展理解和模拟真实世界的模型奠定基础。
关注公众号:【互联互通社区】,回复【SORA001】获取全部报告内容。
报告一、Sora重磅发布,AI生成视频迎巨大创新
导读:
OpenAI发布首个文生视频模型Sora。Sora是基于difussion扩散的transformer模型,凭借其强大的通用视觉数据处理,可以生成跨越不同持续时间、纵横比和分辨率的图像视频,最多可以连续生成60秒(一分钟)的高清视频。Sora是OpenAI在GPT-4及DALL-E等语言和图像模型的基础上进一步的创新突破,该模型能够从类似于静态噪音的视频开始,逐渐去除噪音生成视频。此外,该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景,能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。
来源:中泰证券
报告二、Sora算力倍增,国产架构+生态崛起
导读:
SORA彻底颠覆文生视频领域,算力有望呈现几何倍数需求:OpenAI2月16日凌晨发布了文生视频大模型SORA,它能够仅仅根据提示词,生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。SORA震撼发布,彻底颠覆文生视频领域,SORA根本区别在于,可以理解成是一种融合Transformer模型与StableDiffusion的一种模型。通过我们的测算,Sora架构的训练与传统大语言模型(LLM)Transformer架构的训练算力需求存在近百倍差距。因此我们推测由于SORA,算力需求有望持续呈现几何规模的倍增,同时在信创和AI的大背景下,国产算力有望大放异彩。
来源:华西证券
报告三、Sora实现文生视频跨越式突破,AIGC持续正反馈
导读:
OpenAI发布了文生视频大模型Sora,可根据简短提示词,生成长达60s高清短视频,将此前行业视频生成长度大幅提升。该模型拥有文本到视频,长时生成能力;复杂场景和角色生成能力;语言理解能力;多镜头生成能力;物理世界模拟能力等。Sora的诞生预示着用户可以省去繁琐冗杂的制作过程,将自我想象力转换为视频作品,有望提升短视频创作效率,加速短视频平台发展。
作者:国联证券
报告四、Sora开启创意领域 iPhone 时刻,关注全球文生图、视频投资机会
导读:
Sora问世,视频创作领域迎来“iPhone时刻”。2023年2月15日,OpenAI发布视频生成大模型Sora,通过文本指令,Sora可以直接输出长达60秒的高清视频,包含高度写实的背景、复杂的多角度镜头以及富有情感的多角色叙事,更为可贵的是,Sora生成的视频表现出对于真实世界物理常识的深刻理解。部分媒体报道惊叹——“Sora之后,现实将不再存在”。从本轮AI应用端发展实践来看,以文本创作(小说、剧本)、图像创作(绘画、平面设计、摄影)、视频创意(广告、短视频、传统影视、游戏)为代表的创意创作领域因其高容错率、高投入度,在AI浪潮之初就被市场广泛认为将会成为最先被AI深刻赋能的产业之一;从本轮AI模型发展演绎来看,以ChatGPT为代表的文本创作以Midjourney、StableDiffusion为代表的图像创作以Runway、Sora为代表的视频创作的发展速度无疑是极为惊人的。我们认为,从文字到图像到视频,AI内容创作的信息升维越来越考验模型的创作效率与生成结果的稳定性(早期版本的Midjourney存在生成时间长、生成结果违背物理常识或者“AI感”明显的问题;RunwayGen-1/2也存在生成视频时长较短且生成视频逻辑连贯性较弱等缺陷),但正如MidjourneyV5/6已逐步广泛实现多行业的商业化落地,我们认为Sora的问世有望推动着视频创作领域的“iPhone时刻”到来。
来源:国金证券
报告五、Sora:世界模拟器的视频生成器
导读:
2024年2月16日凌晨,OpenAI在其官方发布了文生视频模型Sora。用户只需输入文本指令,Sora可以快速生成60s视频内容,同时理解和模拟真实世界。与Pika、Runway等之前的AI文生视频工具相比,Sora不仅具有完成视频向前扩展、视频拼接等更加复杂的任务的能力,还能通过多镜头等方式带来更加生动的多视角视频,同时在生成视频的时长、流畅度和逻辑性等方面优势显著。
来源:华泰证券
报告六、OpenAI推出首个文生视频大模型Sora,引领AI文生视频行业跨越式发展
导读:
Sora是一个扩散transformer,具有强大的语言理解能力,通过在潜在空间训练patches生成视频。对标tokens,OpenAI将视觉数据转换为patches,有效用于Sora大模型训练。Sora是一种扩散模型,通过给出输入的静态噪声以及相关的文本提示(prompt)等调节信息,训练生成原始的“干净”patches。在推理时,OpenAI还可以通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。与GPT模型类似,Sora使用transformer架构,释放出卓越的扩展性能。立足DALL·E3和GPT模型,Sora具有强大的语言理解能力,能够生成更加准确遵循用户提示的高质量视频。此外,在固定种子和输入的情况下,可以看到训练计算的增加能显著提升样本视频的质量。
来源:万联证券
报告七、OpenAI发布Sora文生视频模型,AI行业持续高速发展
导读:
我们认为OpenAI推出Sora对AI行业的发展具有里程碑意义。从中短期看Sora作为一款具有强劲性能的视频生成模型,将提升视频生成的质量和效率,对影视和游戏等相关行业具有变革作用。长期看Sora是一款对现实世界模拟的视频生成模型,有望成为理解和模拟真实世界的模型先驱。我们建议关注算力及AIGC应用等领域及相关标的。
来源:源达信息技术
报告八、OpenAI Sora模型发布,视频生成技术迎来突破性升级
导读:
2月15日,OpenAI发布SoraAI视频生成模型,文本生成视频模型迎来重大突破。此次发布的Sora模型能够根据用户的文本描述生成长达60秒、1080P高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。
来源:信达证券
报告九、AI应用Sora有望助推多模态AI热度
导读:
2023年12月,斯坦福的李飞飞团队联袂谷歌基于Transformer推出AI视频扩散模型W.A.L.T,AI视频生成领域产品层出不穷,OpenAI的Sora获较大关注,Sora的核心技术是基于OpenAI在自然语言处理和图像生成方面的深厚积累,与Runway、Pika等相比,Sora在视频生成的真实感、细节表现上均具标志性价值。AI视频生成虽不是新事,但Sora的推出有望推高AI多模态的热度,可关注AI多模态应用塑造数字内容生产与交互新范式,赋能视觉行业,从文字、3D生成、动画、电影、图片、视频、剧集等方面,有望带来内容消费市场的繁荣发展。
来源:华鑫证券
以上报告,互联互通社区推荐阅读,版权归作者所有。文章内容仅代表作者独立观点,不代表互联互通社区立场,转载目的在于传递更多信息。如涉及作品版权问题,请联系我们删除或做相关处理!
关注公众号:【互联互通社区】,回复【SORA001】获取全部报告内容。