复现Live Speech Portraits算法总结

最新推荐文章于 2025-03-31 12:22:00 发布

1998xxr

最新推荐文章于 2025-03-31 12:22:00 发布

阅读量2k

点赞数 3

文章标签：算法 python 开发语言

本文链接：https://blog.csdn.net/sarrr/article/details/122131392

版权

复现Live Speech Portraits算法总结

git地址：https://github.com/YuanxunLu/LiveSpeechPortraits

介绍

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation

环境设置

创建新的环境：conda create -n LSP python=3.6
进入环境：conda activate LSP

克隆项目：git clone https://github.com/YuanxunLu/LiveSpeechPortraits.git
进入项目：cd LiveSpeechPortraits
需要 FFmpeg 来组合音频和无声生成的视频（我是linux用户）：sudo apt-get install ffmpeg

安装依赖：pip install -r requirements.txt

测试

将预训练的模型和数据从Google Drive 下载到data文件夹中。发布了五个主题数据（May、Obama1、Obama2、Nadella 和 McStay）

python demo.py --id May --driving_audio ./data/Input/00083.wav --device cuda

结果在rusults文件夹里

遇到的问题

1.ModuleNotFoundError:NO module named ‘numba.decorators’
包的冲突重装一下numba包：

pip install numba==0.48.0 -user

2.CUDA error问题 cuda和pytorch版本不兼容用的是3090的卡对cuda版本有要求装的是11.0版本的

3.遇到个pt相关问题改了代码

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

1998xxr

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用PyTorch实现音频驱动的实时视频效果

Bsv___的博客

09-18

265

LiveSpeechPortraits是一种基于深度学习的方法，通过将音频和视频进行联合处理，实现音频驱动的实时视频效果。其基本原理如下：数据收集：首先，我们需要收集一组音频和视频样本。这些样本应该包含音频和视频之间的对应关系，例如，一个人说话的音频和他们的嘴部运动的视频。音频特征提取：针对收集到的音频样本，我们需要提取音频的特征表示。常用的方法是使用短时傅里叶变换（Short-Time Fourier Transform，STFT）将音频信号转换为时频表示。

机器学习算法及代码实现--支持向量机

知行_那片天

04-05

6139

机器学习算法及代码实现–支持向量机1、支持向量机SVM希望通过N-1维的分隔超平面线性分开N维的数据，距离分隔超平面最近的点被叫做支持向量，我们利用SMO（SVM实现方法之一）最大化支持向量到分隔面的距离，这样当新样本点进来时，其被分类正确的概率也就更大。我们计算样本点到分隔超平面的函数间隔，如果函数间隔为正，则分类正确，函数间隔为负，则分类错误，函数间隔的绝对值除以||w||就是几何间隔，几何间隔

5 条评论您还未登录，请先登录后发表或查看评论

LiveSpeechPortrait是一个人脸表情识别的技术，它可以通过分析人脸的表情和动作，来判断人的情绪状态和心理特征

08-23

LiveSpeechPortrait是一种基于人脸表情识别的技术，它可以通过分析人脸的表情和动作，来判断人的情绪状态和心理特征。这项技术利用计算机视觉和机器学习的方法，对人脸图像进行处理和分析，从而准确地识别人的情感状态，包括喜怒哀乐、惊讶、厌恶等。通过对人的表情进行识别和分析，LiveSpeechPortrait可以帮助我们更好地理解人的情感反应和心理状态。 LiveSpeechPortrait的应用领域非常广泛。在情感识别方面，它可以应用于人机交互和情感计算领域，例如智能助理、虚拟现实和增强现实等技术中，通过识别用户的情绪状态，提供更加智能和个性化的服务。在用户体验研究方面，LiveSpeechPortrait可以帮助企业和研究机构了解消费者对产品和服务的真实反应，从而改进产品设计和市场营销策略。此外，LiveSpeechPortrait还可以应用于市场调研和广告评估。通过分析人们对广告的表情反应，可以评估广告的效果和吸引力，为广告主提供更加精准的广告投放策略。在医疗领域，LiveSpeechPortrait也可以用于情绪识别和心理健康评估，帮助医生更好地了解患者的情感状态。

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation (译文)

weixin_41967328的博客

10-08

4328

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation (译文) 项目链接 https://yuanxunlu.github.io/projects/LiveSpeechPortraits/ 1. 简介会说话的头部动画，即合成目标人物的音频同步视频帧，对于交互式应用（如数字化身、视频会议、视觉效果、虚拟现实、视频配音和计算机游戏）非常有价值。随着深度学习的最新进展，人们在这个长期存在的问题上取得了巨大的进步。然而，实现逼

Live Speech Portraits：实时逼真说话人头动画

最新发布

gitblog_00781的博客

03-31

687

Live Speech Portraits：实时逼真说话人头动画 LiveSpeechPortraits Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation (SIGGRAPH Asia 2021) ...

探秘LiveSpeechPortraits：语音驱动的实时表情生成器

gitblog_00090的博客

04-09

634

探秘LiveSpeechPortraits：语音驱动的实时表情生成器去发现同类优质开源项目:https://gitcode.com/ 项目简介是一个令人惊叹的开源项目，它利用深度学习技术将语音转换为实时的人脸动画。由开发者Yuanxun Lu创建，这个项目不仅是一个创新的实验，也是一个互动的艺术作品，它可以捕捉并再现说话时的表情和口形变化。技术分析 LiveSpeechPortraits的核...

Live Speech Portraits环境配置

weixin_56495125的博客

04-24

501

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation推理复现环境配置

LSP（实时肖像演讲）算法

weixin_44373865的博客

12-29

2937

这几天闲着无聊，偶然刷到大佬JackCui的视频，里面介绍了一个LSP算法（此LSP非彼lsp），主要功能是根据声音驱动人的头像讲话，满足实时性要求，处于对知识的好奇，自己捣鼓了下，顺便记录下，希望能帮到想要尝试却没有基础的兄弟们。首先到github上搜索LiveSpeechPortraits下载算法代码（登不上的可以私我要代码），然后还需要下载作者训练好的数据，这个可以关注JackCui的公众号回复lsp获取，然后将下载到的数据复制到代码的data文件夹下，再根据requirements.txt下载相关

Baldur's Gate EE Portraits Resizer-开源

05-27

此过程涉及到图像处理的基本概念，如像素操作、图像缩放算法以及色彩管理。开源软件是该项目的另一大亮点。开源意味着源代码对公众开放，任何人都可以查看、使用、修改和分发这些代码。这促进了软件的持续改进和...

Genesis: Big Portraits-crx插件

04-08

在您的创始成绩簿屏幕中，快速链接旁边会添加一个显示“ Big Portraits”的按钮。会弹出一个查看器，让您仅显示学生姓名和肖像来浏览课程，以帮助您记住谁是谁。配置为仅在RIH区使用-如果您需要或需要在自己的区中...

OW_Portraits-Plus:74张新旧世界肖像

03-27

转到主菜单中的“ Mods”并启用“ Portraits +”，单击“保存”，然后单击“玩Mods”，或设置一个新游戏，然后转到Advanced Setup在底部找到该Mod并启用它。开始新游戏内容亚述/帕提亚：新增

Distortion-Free Wide-Angle Portraits on Camera Phone

qq_41718859的博客

04-18

496

Abstract：Photographers take wide-angle shots to enjoy expanding views, group portraits that never miss anyone, or composite subjects with spectacular scenery background. In spite of the rapid proliferation of wide-angle cameras on mobile phones, a wider ..

AI 数字人制作（方案一）：输入一张图片和一段文字即可生成数字人

热门推荐

张伟的专栏

05-12

1万+

原文：AI 数字人制作（方案一）_哔哩哔哩_bilibiliAI 文字和图片生成数字人(输入一张图片和一段文字即可生成数字人) 《用三个开源项目整合成可以商用的数字人项目》文本生成语音开源地址：https://github.com/weineng-zhou/text2voice 语音驱动表情和嘴型开源地址：https://github.com/YuanxunLu/LiveSpeechPortraits 动作迁移开源地址：https://github.com/yoyo-nb/Thin-Plate-Splin

SadTalker：Stylized Audio-Driven Single Image Talking Face Animation（CVPR2023）

04-06

2774

用语音音频制作静态人像图像是一项具有挑战性的任务，在数字人类创造、视频会议等领域有许多重要的应用。以往的研究主要集中在唇动的生成[2,28,29,48]，因为唇动与言语有很强的联系。最近的工作还旨在生成一个包含其他相关动作的逼真的谈话面部视频，例如，头部姿势。他们的方法主要是通过地标[49]和潜在翘曲引入二维运动场[37,38]。但是生成的视频质量仍然不自然，受到偏好pose[16,48]、月模糊[28]、身份修改[37,38]、扭曲脸[37,38,46]的限制。

基于python和深度学习（语音识别、NLP）实现本地离线智能语音控制终端（带聊天功能和家居控制功能）

Leon的博客

01-16

1万+

首先，我们来捋一下一个好的智能控制终端需要什么功能： 1.得随叫随到，不需要的时候就休眠，省电又省心 2.得会听，听得懂人的需求 3.得会控制智能家居，实现人的需求 4.还得会说，更好的与人进行交流和交互 5.得能和人进行聊天，进行交流 6.无论在有没有网络的条件下也能正常的为人类服务，容错率高 7.外加需求：能白嫖就白嫖，最好不花钱基于以上需求，得出思路以下：这里我主要实现离线版本的，使用各个互联网大厂API的联网版本的，在网上有很多教程，我这里就不再详细说明了。我们动手让来

python离线语音唤醒算法_python语音唤醒-pocketsphinx

weixin_39614754的博客

11-30

1857

使用pocketsphinx模块，实现唤醒词功能。运行环境：win10 + Python3.6.2安装模块包：> pip install pocketsphinxC:\Users\qpf10>pip install pocketsphinxCollecting pocketsphinxDownloading https://files.pythonhosted.org/packages/52/53...

pocketsphinx做个唤醒程序遇到了问题，求大佬们解答

qq_47470310的博客

05-30

619

各位走过路过的大佬们，我想用pocketshpinx做个唤醒的程序，然后我在网上找到下面这个程序改了点。运行后我都没说话，他都把唤醒词识别出来了，这是为啥呢，求大佬解答一哈呗。小白十分感谢 import os from pocketsphinx import LiveSpeech, get_model_path model_path = get_model_path() print(“聆听中…”) speech = LiveSpeech( verbose=False,#设置运行的时候不显示详细信息 sam

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation论文翻译

qq_46017342的博客

02-19

278

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation论文翻译