无限创意，即刻成片：阿里妈妈推出“淘宝星辰·短视频”

原创于 2025-11-05 19:00:19 发布 · 1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大数据

部署运行你感兴趣的模型镜像

一、项目概述

随着数字内容消费模式的不断演变，视频已经成为人们获取信息、分享体验以及进行商业推广的重要媒介。传统模式下，繁琐的策划、昂贵的拍摄和复杂的剪辑流程，构成了一道难以逾越的技术与资源壁垒，成为困扰无数商家与内容创作者的核心瓶颈。随着AI能力的发展和长期的技术积累，我们构建了全新一代AI视频生成方案，能够降低短视频制作成本、高效地生成高质量电商视频，解决商家和达人面临的视频制作难题。

依托长期打磨的商品卖点解析、多模态理解、剧本创作、智能混剪、视频生成等算法，我们构建了一套拥有视频制作专家能力的创作引擎。它能够：

深度洞察：自动解析商品特性，精准、完整地提炼核心卖点。
生成素材：利用视频生成技术，将图片转变为视频。
智能编剧：结合海量爆款范式，创作出丰富的个性化视频剧本。
高效生成：智能匹配并剪辑素材，一键生成高品质的营销视频。

这套全自动化视频生产能力，已经通过工具形式赋能商家与视频创作者。

即刻成片工具体验入口：

https://www.wanxiang.art/video/oneClickVideo

淘宝星辰短视频基于LLM，多模态大模型，结合视频生成、人设理解等能力，制作逼真、原生的解说视频。视频示例：

视频中所有镜头为图生视频（I2V）制作

二、整体系统介绍

淘宝星辰短视频整体方案

我们结合大模型，依靠长期积累的商品理解/视频理解能力、智能剪辑技术、AIGC视频生成能力，构建了一套深入理解商品、智能创作剧本、风格多样的短视频制作系统，实现全自动生产高质量电商视频。

方案包括以下几个核心模块：

1、商品信息理解：利用商品信息、SKU信息、商详页信息、商品图、主图视频等，充分理解商品核心卖点以及商家的素材内容，构建商品结构化信息。结构化信息包括两个主要模块：完整的商品信息、商品图片/视频素材描述（caption）。

2、I2V视频生成：在视频素材不足，无法满足镜头要求的情况下，我们可以利用商家图片和视频生成（I2V）能力补充素材

3、人设&主题库构建：为了让模型生成风格多样、内容吸睛的视频，我们分别构建了人设、视频主题库，扩充丰富的视频样式。

4、剧本创作：利用大模型生成剧本，涵盖了生成短视频所需要的视频片段编排、解说旁白等多种要素。

5、视频渲染：利用剧本内容生成完整的视频，包括TTS音频生成，字幕花字渲染、BGM填充等。

视频制作整体框架：

三、详细方案

1. 商品理解

对商品和商家素材的充分理解，是脚本生成和视频制作的基础。结构化信息主要包括以下2方面内容：

基础信息：利用商品标题、属性、图像OCR文本等信息构建商品基础属性。
素材理解信息：利用多模态理解，分析商家图片和视频的内容。并将商品属性结构化信息、图像结构化信息、视频结构化信息统一作为商品信息的结构化，作为剧本生成的素材基础。

商品的结构化信息示例：

下面介绍几个主要模块：

1.1 视频素材拆解

为了给视频生成提供丰富的素材，我们将商家的全部原始视频拆解为单一语义片段，作为视频生成的候选镜头。拆分方案为：利用自研BEM&REM模型对视频片段拆分、打标，同时分析画面的分镜以及片段内文本的完整度，保证拆分后的视频片段内容的一致且完整。配合使用镜头切分和文本内容分析算法，实现了视频内容的片段拆解。比如一段典型电商视频的打标为：

1.2 图片/视频理解

为了在视频生成环节能根据素材的特点生成合适的剧本结构，我们对商家的视频、图片素材做了充分的理解，从素材中提取关键信息作为其文本描述。同时关注画面中出现的关键信息，比如文字。另外由于我们已知了商品的基础信息，在素材理解过程中会减少对商品本身的关注，更多地描述商品所处的环境和使用状态等，这样可以更好地服务于剧本的构建环节。

2. 图生视频

依托于淘宝星辰视频生成大模型，我们通过分析短视频镜头拍摄手法，实现了利用商家图片生成高质量视频片段。在短视频制作过程中，除了让图片动起来之外，更重要的是如何提升画面表现力，以及提升画面表达的丰富度。基于此，我们构建了一套电商动作手法库，支撑短视频制作场景。手法库效果示例：

视频生成方式

手法示例

图生视频（I2V）

镜头拉近展示穿着近景

模特起身展示裙摆效果

优质手法Lora

手部交互

商品特效

3. 剧本创作

剧本创作以剧本大模型为核心，形成"商品理解-知识支撑-内容生成"三阶闭环：商品理解层依托多模态大模型技术挖掘商品属性卖点与视频素材数据，构建多维度商品特征体系，为内容生产输送精准物料；剧本知识层整合人设特征库与优质剧本模板，通过结构化知识注入实现内容多样性倍增与创作可控性强化；最终生成层融合商品特征与剧本知识，输出兼具情感共鸣与商业价值的创意剧本。该架构通过知识增强机制突破传统AI创作的表达单一性，使内容深度与用户共情力实现双重跃升。

3.1 剧本知识库

剧本知识库体系通过人设数据库与优质剧本库的双引擎驱动，构建智能化剧本生成解决方案。人设数据库基于多维角色画像实现商品与代言人设的精准匹配，通过人格化信息注入技术塑造立体角色形象，每种人设通过12个维度来刻画；结合检索增强生成（RAG）与上下文学习机制（Context Learning），突破传统LLM仅依赖采样参数调整导致的表层多样性陷阱。相较于传统生成模型千篇一律的语义趋同问题，该系统通过人设特征建模与Context Learning内容生成，在剧本创作中实现创意多样性跃升，有效解决工业化内容生产中同质化严重、情感共鸣不足的核心痛点。入库的剧本均会经过人工校验、以及优惠信息脱敏等处理。部分示例如下：

3.2 剧本生成

剧本生成环节以上述商品理解和剧本知识库作为输入，剧本大模型首先根据商品信息从人设库中匹配最适合讲解该商品的人设，根据人设和商品卖点为剧本推荐能抓住用户眼球的主题钩子，围绕主题钩子，在大纲编排阶段确定剧本的叙事框架和可用素材的编排逻辑，最后根据剧本大纲指导进行旁白生成。

3.3 剧本大模型训练

剧本生成过程包含四步，每一步都需要调用基于思维链（Chain of Thought）的剧本大模型。为了压缩模型RT，将模型多次调用整合成一次调用，将前3步的人设推荐->主题钩子生成->大纲生成的结果作为一步模型的thinking内容（适当做进一步简化处理），第4步台词生成作为最终的结果，总的token数减少为原来的1/3，RT显著降低，同时剧本生成质量保持持平。

整体训练流程分成两个阶段，第一阶段先做SFT训练，让模型有基本的剧本生成能力；第二阶段通过强化学习来进一步优化生成剧本的质量。

剧本大模型训练流程

3.4 效果展示

围绕设定的人设特点制作的短视频效果如下。“生物学博士”人设，从成分解析的视角，利用专业知识分析身体乳的保湿原理，增加专业背书，能够引起用户的情感共鸣。

4. 视频渲染

4.1 TTS

TTS模型训练：为了合成更逼真的TTS音色，我们与多模态大模型团队合作，通过「录制脚本设计-音色录音采样-训练音色模型」的方式，实现合成语音在音色相似度、语流节奏、场景适配、情感表现等方面的全方位复刻。

音色录制：制定多套语音采集数据标准，针对性地寻找符合剧本人设的真人参与试音，最终遴选目标音色，采集真实语音数据，构建AI音色矩阵。
训练数据：为了获得更加自然、生动、真实的合成语音，构建了通用语料和场景语料作为录音脚本，以获得更加符合人设和应用场景的训练数据。通用语料由自然对话文本、多情感文本、中英混文本组成，场景语料根据人设和指定场景合成对应的文本。此外构建了完备的数据处理链路，通过「格式转码-音频切分-语音识别-文本后处理-人工检验」处理链路，获得训练可用的数据。
模型训练：基于阿里妈妈自主研发的TTS基座模型，组合不同音色，进行模型微调，得到能够完整复刻真人音色的模型

4.2 字幕擦除

商家的原始视频中常常包含字幕，生成的解说文本可能与原始字幕内容不匹配；我们添加字幕时也会出现新旧重叠问题。因此我们利用文字检测 +字幕擦除方案，将素材原始字幕擦除

图上文字检测：在电商视频中，出现文字不一定是字幕，可能包含商品上的文字。为了有效检测字幕，我们通过对字幕、贴纸、logo等元素做区分标注，积累了元素检测数据集。最终模型能够更准确地检测到字幕，基本可避免将商品上的文字抹除。
字幕擦除（字幕扣除+Inpainting）：对比众多图像擦除算法后，我们选择了ProPainter，该算法做到比较好的精度与速度的平衡。为了提升字幕擦除速度，我们选择视频下半部分作为字幕检测和擦除区域。
字幕擦除效果：

字幕擦除前后效果对比

4.3 数字人

数字人创作以图像创作和视频生成I2V模型为核心，通过注入模特人物形象，构建出具有高度逼真感和个性化的数字人解说片段。这个过程首先依托先进的图像处理技术，对模特人物的面部特征、动作细节，穿着以及背景进行深度分析，从而提炼出数字人的基础素材。这些素材不仅忠实于原始形象，还具备高度的灵活性，使数字人能够在不同场景中展现自然和真实的互动。在视频生成阶段，使用I2V模型将静态图像转换为动态视频，确保数字人在视觉上逼真而富有层次感。同时，结合唇驱技术，让数字人的口播内容与音频实现精准同步，使其在传递信息时更加流畅、自然。

注释：文中原始图片素材均来源于淘宝商家及开源网站，所有图文素材仅用于演示技术研发与应用效果，如有不当之处，请联系我们处理

END