AI视频生成的场景痛点及产品功能设想(7000字)_@Sean

本文作者是产品经理@Sean ,是咱们社群「AI产品经理大本营」成员;过去4个月,他mapping了行业内所有AI视频相关产品和公司。

Sean 最近正在求职“AI产品经理”,AI视频方向,城市不限;有相关招聘需求的公司/部门,可以加ta微信,详见文末二维码。

本文分四个部分:

一、核心用户画像、场景及痛点需求分析

二、(重点)视频生成产品的功能形态设想:从C端普通用户、C端专业用户及B端用户(以电商广告为例)三方面,分别阐述P0和P1级功能思考

三、视频生成产品中,AI产品经理的价值及核心工作是什么

四、“广告营销类”AI视频生成产品mapping汇总(含优劣势分析及优秀视频案例捕捉)

核心观点包括:

  1. 激发AI视频长期需求:目标用户应关注原本不拍、不剪视频的普通大众。在短剧、生活记录类视频的基础上,利用AI制作动效,可能是AI视频的长期需求。

  2. Tob广告营销类视频:包含视频素材生成、端到端视频生成两类,重点在于设计好Agent工作流,并针对不同产品品类训练、调优模型。

  3. 优先将常用功能做出差异:先开发、优化常用功能,做出差异化亮点(如对口型、人物一致性),再融入其他功能,最终覆盖完整视频创作流程。

  4. AI视频新奇玩法模块化:封装AI视频新奇玩法为单个功能,如老照片动效功能、续写梗图剧情功能。用Agent工作流来增加视频成功的概率,并在功能上增加用户引导。

一、视频生成产品的用户、使用场景及需求

1.1 C端用户

普通用户

  • 低制作门槛:无专业剪辑知识,也不愿花大量时间成本学。

  • 满足猎奇心理:制作趣味视频(如老照片动效),分享给家人、朋友。

专业视频制作师

  • 创意需要:对视频质量有较高要求,希望AI能激发创意。

  • 提效需求:交付有截止日期,希望AI能在保证质量的前提下,加速视频制作。

  • 合规性和版权问题:广告视频需遵守严格的合规要求,特别是素材版权问题。

1.2 B端用户(以电商广告用户为例)

用户画像:理解业务需求,清楚需要的内容样式。但不擅长制作精美的视频,核心关注视频的转化效果。

用户需求:

  • 预算限制:传统视频拍摄和制作成本高,视频制作有预算额度。

  • 内容质量高:需能展示产品卖点、符合品牌营销策略,还需具备传播性和营销效果。

  • 快速大量生产:需要在短时间内制作、测试不同风格的视频。例如:美国的黑五期间,店家可能需要上千条视频素材,而传统视频制作流程复杂,难快速大量生产。

二、个人对AI视频产品形态的思考

2.1 针对C端普通用户

普通用户对AI视频的消费需求,可能带来AIGC内容平台型机会(类抖音),但现实情况是:针对短期猎奇需求,大部分用户没用起来。很多人更愿付费购买“老照片动效成品”,而不是自己使用即梦、Runway等工具。

长期来看,用户对AI视频容易失去新鲜感。当前AI视频更多像动态PPT,镜头间不够连贯,质量不如生活实拍效果,更难与影视类的作品相比。用户更想看的是优质的、记录生活的,能引起情感共鸣的内容。

如何破局?

第一阶段:让普通用户,方便的用起来AI新奇功能(类似老照片动效),对应功能P0-1、2、3。

第二阶段:激发、满足长期需求,让用AI辅助视频创作成为长期现状,对应功能P0-4。

普通用户难用起来的原因:

(1)缺乏基础了解:不清楚AI能力,觉得复杂高深,没有很强的尝试意愿。 

(2)不了解AI本质是预测和概率:有的用户试了一次效果不理想,就觉得功能不行,不再使用。 

(3)现有产品功能有使用门槛:视频生成Prompt撰写,AI精准生图,视频可控性功能(如首尾帧、动态笔刷)都有一定的学习成本。产品大多也要付费、申请内测等。

解决方案

核心是给予用户引导及例子。从Prompt扩写、功能模块化、给例子促灵感三个角度考虑。

整体思路优先开发技术较为成熟,但仍需改进的功能,做出差异化亮点(如对口型和人物一致性),再融入其他功能,最终覆盖完整视频创作流程。

P0级功能设想

P0-1:Prompt模板化、提供扩写

背景:不同产品推荐的Prompt格式和支持的内容不完全一致。例如,都支持风格描述,但支持的具体风格不同,这可能是由训练视频的文本描述格式不一致导致

具体功能:在产品里内嵌Prompt模板或提供Prompt扩写功能。用户只需填空,例如【主体】+【动作描述】+【环境背景】+【风格】+【画面质量】。每项给出产品支持的种类及含义,如风格选项及效果演示。如下实例嵌入产品中:

239282a94983ba1c3f2bc8379bfa5b34.jpeg

026a105317d1854b42fae57f77c31f99.jpeg

AI对完成prompt扩写并生成视频后,用户如不满意,可选择让AI在保持用户输入主体上,多次随机生成完整prompt,并提供视频效果。用户可再做二次加工。

作用:降低用户使用门槛。用户有时只对于画面主体有想法,但怎样演绎效果更好,可能需要AI通过多次扩写prompt给到灵感充分挖掘视频生成能力。

P0-2:AI视频新奇玩法功能化

背景:用户对文生视频、图生视频这样的功能名词,感知不如「老照片互动」、「我来设计梗图后续剧情」这类具体能做什么的名词强目前,用户往往需要搜索教程才会使用。

具体功能:将AI视频新奇玩法封装为一个个功能。例如老照片动效、电视剧梗图(如容嬷嬷喂小燕子吃鸡腿)。用Agent工作流来增加视频成功的概率,并在功能上做用户引导,提醒用户可能需要多试几次、有合规风险等。

以老照片互动为例,通过人像抠图、背景融合等工作流节点,提升功能效果,给予用户操作教程指导,可能介绍哪些互动关键词,能让视频效果更好。

P0-3:灵感探索站

背景:仅有产品使用教程不够,用户需要更多案例来引导创作。

具体功能:提供大量新奇,好玩的素材样例。同时提供案例背后的模板,用户可直接套用,或在此基础上做二次创作。类似Morph studio的功能(下图)。

作用:完整故事的制作依旧比较复杂,二创相对容易很多。同时灵感探索站本身也可以是AIGC视频内容消费平台

a69a446d4d867f523495f1cf6a996376.jpeg

9931a1724db70c05ec954fd99c1e5503.jpeg

P0-4:AI辅助视频剪辑

背景:为避免用户过了新鲜劲后,就不再看AI视频的情况。找到并激发AI视频的长期需求很重要应关注原本不拍、不剪视频的普通大众,因AI降低了操作难度而开始使用用AI制作动效或视频图层,是可能存在的长期需求。

具体功能:AI制作动效或者视频图层,例如视频中的AI生成彩色蝴蝶。这些功能也可用于短剧,MV制作。

作用:实现目标用户的破圈,AI(虚拟)+现实视频的结合。既用到了AI视频能力,又满足了普通用户消费“真实生活内容”的需求。

P1级功能设想

P0的需求,核心目的是让普通用户能够用起来。而P1的需求,是能让普通用户觉得AI视频生成好用,实现可能还需技术进步。关于“好用”,我理解包括:功能多样明了(对应功能P1-1)、更简便的可控(对应功能P1-2)以及流程简化(对应功能P1-3)。

P1-1 融合多种视频技术

背景:当下AI视频技术种类繁多,例如数字人、对口型、表情控制、图+人跳舞、换脸、视频生成等。不同的技术对应不同产品、模型。但对于普通用户来说,可能会觉得都是视频。

具体功能:将多种AI视频技术融合到同一产品内,统一整合,用户提出需求后,引导用户具体使用某个功能。

P1-2 视频内容定向修改

通过输入Prompt调整视频内元素。每次用户输入修改指令后,跳出详细的Prompt让用户确认,类似视频中的图像重绘功能(或是Pika视频内容修改功能的升级版)。

除修改视频内人物、物体外,还可通过Prompt修改对话脚本,加上用克隆的原声重新配音及对口型等功能,类似Vozo 

现有的视频内容难以支持定向修改,往往一点效果不好就必须重新生成,导致视频抽卡的时间、算力成本高、整体体验不佳(可能受限于现用的 DIT - Diffusion Transformer 框架,视频是一次性完整生成的)

P1-3 视频端到端全自动生成

用户只需输入几个关键词(如故事主题、风格、剧情特色等),系统就能生成一个故事脚本。用户调整或确认脚本内容后,扩写每一幕场景Prompt。再生成视频,视频默认风格、人脸一致,人物对话、旁白有音效,且对好口型等。真正做到山姆奥特曼所说“电影变成了游戏”,技术上可能还有距离。

2.2 针对C端专业视频制作师

P0级功能设想

专业设计师、剪辑师,已有成熟的视频生产、剪辑工具,因此需要解决"专业设计师为何要用AI视频产品"的问题,在AI生成质量尚未达到非常高水平的背景下,关键词是“提效和可控”。

P0-1 更多细项常用功能:

例如风格、人脸保持一致,在当前视频制作工作流中,单个的视频只有几秒,为剧情连贯,需抽图实现人脸、风格一致。如能一键定义人脸、风格,能省不少时间。类似Pixverse V2的加场景功能(人像、风格一致性)以及MOKI的风格、角色选择功能。

其他常用功能有很多,例如视频内定向换脸,对口型功能,镜头平移但物体不变形等等,目的都是为了提效。

027eef0f7c2a4b6fba03eaccfadc2a79.jpeg

P0-2 更多内容元素可控:

除了上面内容元素可控外,还包括视频风格、运镜、帧率、清晰度、表情、背景、光影、图层、音频等等也可控,最终不需绿幕就能实现近似专业影视效果。

当前AI视频一大痛点是对物理世界的规律和Prompt的理解不足。增强视频的可控性,可一定程度上解决这些问题。同时也能帮助提效,避免频繁抽卡。视频各项元素越精细化可控,制作效率越高,专业制作人更可能使用。

d2e4870e393199603bfeb16b9ee16f2a.jpeg

这些常用功能看起来已有很多产品在做,但核心是做出差异化,有不同实现方法或者更好模型效果在完成亮点功能的MVP后,再考虑其他P1级功能,逐步完善产品。例如,可控性方面,Runway做横纵斜方向的运动笔刷,Pixverse功能上支持以箭头设定运动方向,寻梦则预告实现对图层的控制。

另外,这些功能或许应从海外专业用户开始付费推广。当前AI生成视频产品有算力成本,而海外用户付费意愿较高,类似Midjourney、Pixverse等产品,优先在Discord版推出并收集用户反馈。先向海外专业用户推广,再相应调整定价策略、产品功能,更有助于实现正向ROI。

P1级功能设想

  1. 覆盖AI视频生成全流程:包括生成剧本-生成分镜表-生成图片提示词-挑选图片-图生视频-挑选视频-剪辑视频等等,用户可对每个步骤做进一步修改,例如分镜表中调整某一幕的运镜,视频效果也相应调整。

  2. 支持功能协作:允许多人对一条工作流进行加工,并提供权限控制。

  3. 素材管理、剪辑功能:便于组织和管理各类素材。支持强大的剪辑功能,类似剪映、Pr。

专业用户在生成完整视频作品时,需要大量视频相关工具(包括剧本生成、补帧、高清化等等),可以将这些功能融合进产品。

此外,一个大的作品背后是大量素材(图片、短片),以及多人的协作(P1-1、2)和专业的剪辑,需要素材管理和剪辑功能。

2.3 针对B端用户(以电商广告为例)

对于B端用户来说,视频创作效率与质量至关重要,视频需真实还原商品,体现商品卖点,符合品牌调性然而,当前生成式视频在可控性、时长上存在短板,容易出现AI痕迹。商拍广告流量成本又较高。因此,普遍更多使用质量可控、能快速大量生成的数字人、混剪和相册类视频,较少使用Sora类视频生成。

ToB视频生成的核心内容包括“视频素材生成”以及“端到端视频生成”,核心都在于设计好Agent工作流,并针对不同产品类型训练和调优模型

P0级功能设想

虽然视频生成技术还不成熟,但在tob领域也有应用,视频在吸引客户的效果上,很多时候比图片更好,但需要运动幅度小,时长短,效果可控。

  1. 动态微视频:将图生视频的能力固化为功能,用户可上传图片,生成动态微视频。例如在试衣视频中,用户可上传自己的照片或选择模特照片,生成试衣视频。

要实现这部分能力,需要更好的Prompt扩写功能及Agent工作流(融合好运动笔刷效果)

  1. 端到端混剪视频生成

通过用户提供的宣传关键点、图片、视频素材,生成相应的脚本文案、字幕、动效。工作流包括:产品亮点素材挖掘、配乐选择和模板选择等。例如试衣视频,涉及抠图、上身、更换背景、生成动效等步骤,根据商品类别提供多种混剪模板,生成凸显产品亮点的混剪视频。

需设计好Agent工作流,通过Agent来增加每个步骤的成功概率,可能需要对不同品类的商品,做定向模型训练。例如,介绍椅子时,先介绍面料、人体工学,从功能到整体,最后细节展示,而这套流程可能不适用于鞋类或衣服。

同时,需要根据用户反馈,持续迭代模型及产品。例如,针对衣服的宣传,如果褶皱飘动效果不自然,可能在调优模型时,需要补充优质的衣服褶皱、飘动数据。

P1级功能设想

  1. 后链路数据监控,记录不同视频内容带来的品牌增粉,下载,注册等。

  2. 产品能让视频附带营销关键信息,例如地理位置、留资链接等。

  3. 视频多账号管理,批量分发视频功能。

后链路数据的效果监控,以及让视频附带营销关键信息对转化非常重要。此外,商家和公司往往有多个自媒体账号,可能由不同员工负责,需有效管理这些账号,确保视频内容符合品牌调性。

三、在视频生成产品中,AI产品经理的价值及核心工作是什么

我认为核心工作是:找到在当前AI技术能力下,以前满足不了(或不够好),但今天能满足(或能更好)的功能点具体包括:

  1. 找到限制条件下最优解

当前的一些视频功能,需要同时兼顾算力消耗、质量、用时三个维度,用户希望生成用时少的基础上,保持高质量。这需要产品经理做出取舍。

  1. 需求挖掘和功能设计

AI产品经理依旧需确定要实现什么功能,这个新的功能可能是由数据集、Agent工作流、RAG等等实现的。但更重要的是明确为什么要这个功能。一切以需求为核心,这也意味着,并不一定要完全AI来实现,更多应关注用户需求怎样能被更好的满足

  1. 模型能力的提升

具体包括:(1)针对目标场景,清楚模型哪里还不够好 (2)清楚可以给技术侧,怎样的支持帮助调优

通过专业的视频评测方法,例如VBench(公众号介绍),结合不同用途人群的反馈来调优模型。广告设计师、自媒体、影视设计师对视频模型能力,关注重点可能不同,包括:人物质量,动作连贯性,商品效果不佳(褶皱,摆动不自然)等。在确定最先应解决的问题后,才能针对提升模型效果。

识别到问题后,除和开发沟通算法架构的提升外,也需考虑训练数据的质量问题。比如训练数据里的Prompt没有描述清视频里的多主体,才导致多主体表现效果不佳。增补优质训练数据的同时,也考虑调优数据造、挖、洗这整一条数据加工流程。

四、“广告营销类”AI视频生成产品mapping汇总(含优劣势分析及优秀视频案例捕捉)

笔者汇总了在AI视频生成领域内的,广告营销相关的各种产品(37个),根据其核心功能和特性进行了分类,并做了优劣势分析。

这些产品的详细信息,笔者已整理成表格Excel

ad19d464df2dce73b6f21fc08a203fb4.png

该资料的获取方式添加助理乐乐微信(lelegirl721),回复“AI视频”即可

1ebb037bdfdf46576bb7899f04948d72.jpeg

根据这些产品的核心功能,主要对以下4类:视频大模型、数字人、多种类AI视频组合、端到端解决方案,挑了部分产品在本文做简要介绍。

4.1 视频大模型

以Sora为典型代表,仅输入简单文字提示或者图片,就可通过模型生成视频,以下选取了在各项评测中,排名较高的产品。

4.1.1 Pixverse

核心功能包括:

  1. 多种生成方式:支持图生视频、文生视频、图+提示词生视频,适用于创作故事和制作广告。

  2. 动态笔刷:通过在图片上画箭头,用户可自定义物体移动方向。图生视频凭借类似功能,能实现比文生视频更好的稳定性。

  1. 风格设置:用户可选择视频风格,包括写实风格、动漫风格、3D风格等。

  2. 角色一致性控制:可通过上传角色的照片,较好的控制视频一致性。该功能对于影视类广告、剧情类广告效果很重要。

cbd643bfeaacea440e8fc8d61a215133.jpeg

4.1.2 Pixeling千象

一款全中文、易上手的AIGC创作平台和社区。注重用户友好和简单操作,帮助用户零基础轻松使用一站式功能。核心功能包括:

  1. 文生视频、图生视频、运动幅度设置、视频横纵比设置、镜头控制等。

  2. 电商百宝箱(E象):提供了专门为电商设计功能组,包括商品视频模板和多种实用的电商图片处理工具。

b8fcbe5f880cf7bc85025b9f62937301.jpeg

优秀视频效果


4.2 多种类AI视频组合

4.2.1 布尔向量(BOOLV)

将出海、海外电商用户可能用到的许多功能,都集成到同一个产品上,提供从商品链接到视频生成,再到效果分析的全链路支持。

核心功能包括:

  1. 电商链接一键生成视频:用户可通过输入电商平台(如 Shopify、Amazon等)商品链接,快速生成相关视频。

  2. 多种视频生成方式:支持从图片、脚本、博客内容和模板生成视频,并提供视频增强功能。这里与视觉大模型不同点在于,布尔向量的成品更像是各类模板视频、移动相册图的排列组合。

8bcb7f0ad82fca4ae5cd7b54c3dd7cf5.jpeg

  1. 提供方便简洁的视频剪辑工具。

6a26384f927fdb41fa27a993fbb359ca.jpeg

  1. 提供视频效果分析工具,商家可凭借效果数据,更好的调整和优化视频内容。

官方功能介绍 

产品优势

  1. 场景适配度高:BOOLV专门面向电商用户。模型本身对电商场景和品类做了微调,在功能上,覆盖了许多海外电商用户“生成营销内容场景”。

  2. 稳定性高:由于视频依赖于模板和图片轻微移动、镜头平移,布尔向量的视频稳定性和一致性更高。

  3. 形式多样:布尔向量和广州美院合作,制作了大量针对各类场景,有艺术气息的模板,并支持多种元素(如音乐、字幕、特效、贴纸)的组合,使得视频内容更加丰富有趣,效果不单一。

4.2.2 其他同类产品

Creatify:能够自动分析产品信息,并生成脚本。提供了多样化的语音选项和数字人。

ef9c6c075b7b70f166f5dda5dc75fd2f.jpeg

特看:不仅提供视频制作功能,还包含视频效果数据监控和各类榜单(如达人榜、商品榜、视频榜、话题榜),商家可结合这些榜单效果,判断爆款商品、视频类型。此外,支持AI直播相关功能。

b650c1890546d2e5aba15def9e9357b2.jpeg

这类产品由于功能更加丰富,不局限于某一种技术路线。且覆盖了出海电商视频制作中各场景需求,使得电商视频制作效率大大提升。

4.3 数字人

Heygen

核心功能包括:

  1. 数字人克隆:用户可上传自己的声音和画面,来克隆一个数字化的自己。这使得个人和企业能快速生成与自身形象相符的数字人。

  2. 允许用户通过上传照片,或选择预设模板来生成数字人。支持语言翻译,保持口型一致。

优势:

  1. 操作简单快捷:技术相比视觉大模型来说更成熟,不需要许多后期剪辑技巧,用户可轻松创建适用各种场景的商业视频。

  2. 多语言支持和本地化:提供换语言及调整口型功能,有非常大的用户群体。本地化的内容对营销效果来说,可以极大的增加可信度和营销效果。

劣势:

  1. 产品价格高:生成1分钟的视频需要2美金。与传统拍摄方案相比,价格不算高。但由于算力消耗方面的考虑,HeyGen编辑视频的过程无法预览效果,用户在制作过程中需要反复调整,会重复支付费用。

  2. AI感比较明显:虽然Heygen的产品能力在数字人领域,已处于领先的状态,但数字人技术的局限性依旧存在,视频不够生动、声音略机械、肢体动作较少、缺乏情感等等,长时间看到同类视频后,用户容易发现不是真人。对消费者来说形式依旧偏单一。

数字人类产品非常多,包括用D-ID、Elai、奇妙元等。总体而言,通过数字人技术,可较低成本的,短时间内制作出大量营销视频,如果视频中需要人做产品介绍,而商家自己又不想出镜,是可以大体满足需求的。

4.4 端到端解决方案

FancyTech

与其他同类产品的不同点在于,不提供视频生成工具,而是转向提供结果。FancyTech联合创始人Morgan表示,传统SaaS订阅费并不能免除提供商与客户持续互动的责任,这使得服务交付成为业务的重要组成部分,避免过多的产品定制化。

根据布尔向量CEO王庆描述:

“现有电商商家主要分为两类,一类用户是研发能力很弱,相对比较传统,但他们业务体量可能很大;第二类客户的话相对比较年轻,然后他们有比较好的研发能力。这两类客户商业模式不太一样。

针对第一类客户来说,他们更多是希望你能做交付。因为缺乏研发能力,做部署化 SaaS 和交付就会比较好。第二类客户会更加希望做共创。比如给到 API,在业务流的某一个环节给到支撑。

FancyTech类的服务,可以满足第一类客户的需求。我相信随着技术的不断升级,用户结合相应产品制作视频的成本不断降低,会有越来越多的第二类客户。

五、个人介绍及联系方式

  • 3年工作经验(含2年车企数据产品运营、1年车企管培),公司2023团队内最佳(前10%),2022管培项目结业S评级(前20%)。

  • 对AIGC视频类、图片类产品有深度研究及使用。过去4个月,mapping了行业内所有AI视频相关产品和公司,并成为《AI产品经理的实操手册》中「AI视频工具」章节的共创负责人(已在社群“AI产品经理大本营”发布,详见 https://t.zsxq.com/E4WtK)并输出本篇长文。

  • 熟悉NLP、ML、AIGC,能与技术团队顺畅沟通。可用各类数据分析软件及方法,独立产出数据洞察报告。

  • 海外硕士,英语能作为工作语言,托福阅读满分(30),听力 29 分。

ps,我最近正在求职"AI产品经理”- AIGC视频相关 (base城市不限),有相关招聘需求的AI公司前辈,欢迎加我微信联系"seantins9"。

f2fe151b299004c643001d8b1b6ef887.jpeg


本文作者sean,来自咱们社群“AI产品经理大本营”。

4eaa1266937ea07514a80324dfceebdf.png


【One more thing】

最近,池建强老师团队的墨问西东平台,上线了hanniman的专栏「黄钊的AI产品内参

每天5条AI内容点,日更3个月,现价90元,仅需1元/天,3天内无理由退款(联系墨问客服同学);订阅入口和详细介绍在——

注:星球“AI产品经理大本营”会员、小报童“黄钊的AI日报”用户,无需重复购买。

引申阅读:《公众号hanniman往期精选》。


黄钊hanniman,前腾讯PM,前图灵机器人-人才战略官/AI产品经理,12年AI、15年互联网经验;社群“AI产品经理大本营”(7年)和自媒体“hanniman”(10年);作品有「黄钊的AI日报」。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值