AI 绘画Stable Diffusion 研究(十四)SD 图生图+剪映制作人物说话视频

本文介绍了一种替代SadTlaker的方法,利用SD图生图技术生成人物张嘴图片,配合剪映软件快速制作出开口说话的视频,尤其关注于提升制作效率和非正面照片的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


大家好,我是风雨无阻。


前一篇,我们详细介绍了使用 SadTlaker制作数字人视频案例,感兴趣的朋友请前往查看:AI 绘画Stable Diffusion 研究(十三)SD数字人制作工具SadTlaker使用教程


对于没有安装 SadTlaker 插件的朋友,可以查看这篇文章:AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程


想必用过 SadTlaker 的朋友都知道,目前使用 SadTlaker插件制作数字人说话的视频,有两个不太理想的地方:

(1)、 生成视频消耗的时间比较长。尤其是显卡和显存比较低的朋友,想要制作一个长时间的视频,效率更低。

笔者亲测:使用3060 12G显卡,制作一段15s 左右的视频,需要10分钟左右。

(2)、目前的SadTlaker 图片人物只能使用正面照,这样给人的感觉比较突兀。


那有没有其他方法制作数字人视频,既能达到让数字人张嘴说话的效果, 效率又更高,还可以使用非正面图的方式呢?

答案是有的,那就是今天的主题: SD 图生图制作人物张嘴说话图+剪映制作说话视频。


一、SD制作人物张嘴说话图


1、切换到SD 图生图->局部重绘界面 ,上传一张人物图片


在这里插入图片描述


2、反推正向提示词


在这里插入图片描述


3、改写正向提示词,让人物张嘴


没安装提示词插件的朋友,请查看这篇文章AI 绘画Stable Diffusion 研究(六)sd提示词插件,有详细安装步骤。


(1)、我们使用提示词插件, 在提示词处,先输入中文: 张嘴

提示词插件会自动将中文转换英文提示词。


如图:

在这里插入图片描述


(2)、为了让人物张嘴效果更明显,不被sd 忽略,我们需要增加张嘴提示词的权重


选择张嘴提示词, 会弹出权重操作按钮,然后我们点击三次,增加权重图标按钮,此时提示词输入框内会自动增加提示词的权重。


如图:

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


(3)、涂选重绘区域

在局部重绘界面,右侧选择画笔,ctrl+鼠标滚轮可调整画笔粗细。


在这里插入图片描述


(4)、调整重绘尺寸

在这里插入图片描述


(5)、启用controlnet ,保存人物姿势不变

  • 启用controlnet
  • 控制类型选择:openpose
  • 预处理器:openpose_full
  • 模型:control_v11p_sd15_openpose

在这里插入图片描述


(6)、点击生成,即可获得人物张嘴的图片

对比图如下:

在这里插入图片描述


上面我们已经获得了人物张嘴的图片,那么接下来,我们使用剪映,加上配音和字幕,即可制作人物开口说话视频了。


二、剪映制作人物开口说话视频

1、准备工作

  • 安装剪映,具体的安装步骤这里就不再细说,很简单,请自行安装。

  • 准备好人物张嘴和闭嘴的两张图

  • 准备好音频文件


2、打开剪映点击开始制作

在这里插入图片描述


3、导入音频和图片

如图:

qyDT-1692773049806)(assets/image-20230823003231110.png)]

在这里插入图片描述


4、将音频拖入下方音频轨道

在这里插入图片描述


5、生成字幕

依次点击菜单栏上“文本”按钮,再点击左侧“智能字幕”按钮,接着点击“开始识别”按钮,生成字幕


在这里插入图片描述


字幕生成如下:

在这里插入图片描述


6、将图片拖入轨道,然后切换嘴型

(1)、怎么切换嘴型,使其看上去像说话的效果呢?


用过剪映的朋友肯定知道,剪映 1s 是30帧 。

那么正常人说话,大约1s 5 -6 个字。

因此我们可以计算出来大概 5帧 一个嘴型。

因此我们先使用闭嘴的图,然后在5帧的地方,切换张嘴的图即可实现。


(2)、制作步骤


  • step 1: 将张嘴的图和闭嘴的图分别导入到图片两个轨道上

  • step 2:将右侧轨道缩放拖到最右侧,可以清晰看见轨道上的帧数 ,如1f \2f\4f\6f

    如图:

在这里插入图片描述


step 3: 将定位线移到 5帧处,然后点击分割按钮,将张嘴和闭嘴图都分割开

如下:


在这里插入图片描述


step 4:处理闭嘴的图, 分割后,我们删除,前5帧,不用的闭嘴图

如下:


在这里插入图片描述


step 5: 继续往后数5帧,再分割

在这里插入图片描述


step 6: 删除张嘴、闭嘴图 多余的部分


在这里插入图片描述


step 7: 将张嘴、闭嘴拖入同一轨道,并且打组

在这里插入图片描述


选中两个片段,然后鼠标右键,新建复合片段,打组


在这里插入图片描述


现在的效果,就是闭嘴、张嘴的一个片段 。

打组后如图:

在这里插入图片描述


step 8: 复制粘贴多个片段,直到一句说完话为止

然后将图片末尾和字幕对齐。

如图:

在这里插入图片描述


step 9: 没说话的时候,使用闭嘴的图

注意:将图片末尾和空白处末尾对齐

如下:

在这里插入图片描述


step 10: 继续处理后面说话的部分, 重复步骤step 8,直到每句话处理完毕

在这里插入图片描述


step 11: 调整视频比例,9:16 再导出视频

右上角导出按钮,导出即可。

在这里插入图片描述


在这里插入图片描述


好了,这个视频制作就到此结束,看看效果吧:

SD 图生图+剪映制作人物说话视频

说实话,这个视频只是张嘴闭嘴的效果,没有脸部表情变化,确实显得比较生硬。

不过这里重点在于介绍制作思路和剪辑方法, 对于感兴趣的朋友可以尝试玩一下。

### 使用 Stable Diffusion WebUI 进行训练 #### 什么是是指通过输入一张参考像以及一些参数设置,利用 AI 模型成新的像的过程。在 Stable Diffusion 中,WebUI 提供了一个友好的界面来进行此类操作[^2]。 #### 主要功能模块 Stable Diffusion WebUI 的功能支持多种模式和工具,包括但不限于以下几种: - **基础**:基于参考成新像。 - **手绘修正/涂鸦绘制**:允许用户通过简单的草或线条调整目标区域的内容。 - **局部重绘**:仅重新成指定部分的像内容,保留其他区域不变。 - **蒙版引导的编辑**:可以使用黑白掩码或者自定义颜色掩码实现更精确的控制。 - **批量处理**:一次性对多张片应用相同的变换逻辑。 - **反推提示词**:自动分析现有像的关键特征,并尝试推测其可能对应的文本描述[^3]。 #### 实际操作指南 以下是关于如何配置环境及执行具体任务的一些指导: 1. **准备阶段** - 下载安装好最新版本的 Stable Diffusion WebUI 软件包及其依赖项。 - 加载预训练权重文件至本地运行环境中以便于即时测试不同效果。 2. **启动服务端口访问页面** 执行命令如下所示以开启形化管理面板: ```bash python webui.py --listen --port=7860 ``` 3. **加载模型与扩展组件** 确认所使用的扩散网络架构适配当前项目需求;同时激活必要的附加脚本如 ControlNet 或者 Pose Detection 插件提升创作灵活性[^4]。 4. **设定基本参数** 用户需填写以下几个重要字段才能顺利开始渲染流程: - Prompt (正面指示语句卡) - Negative prompt (负面排除列表) - Sampling steps (采样迭代次数) - CFG scale (条件因子强度等级) 5. **导入素材源文件** 将待加工的照片拖拽上传到对应位置框内作为初始依据材料之一。 6. **启用高级选项(可选)** 如果希望进一步细化成果表现,则考虑采用下列策略优化细节呈现质量: - 利用“Denoising strength”滑竿调节去噪力度平衡真实感还原度与创意发挥空间之间的关系; - 结合特定风格迁移算法切换整体视觉基调方向; - 对某些特殊部位单独施加额外约束条件限制范围内的变动幅度不至于过大破坏原有结构比例协调性等问题发几率降低不少哦! 7. **提交作业等待完成反馈结果展示** --- ```python from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler model_id = "runwayml/stable-diffusion-v1-5" scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler") pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler).to("cuda") prompt = "a photo of an astronaut riding a horse on mars" image = pipe(prompt).images[0] image.save("astronaut_rides_horse.png") ``` 上述代码片段展示了如何借助官方库快速搭建简易管线实例用于初步探索验证概念可行性等方面的工作效率有所提高的同时也简化了许多繁琐的手动调试环节带来的不便之处[^1]。 ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

w风雨无阻w

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值