数字人开源代码：audio2head音频加单张图像驱动视频生成

最新推荐文章于 2024-07-12 09:28:30 发布

流泪的猪

最新推荐文章于 2024-07-12 09:28:30 发布

阅读量274

点赞数 5

文章标签：音视频

本文链接：https://blog.csdn.net/m0_45267220/article/details/140157763

版权

项目地址：

wangsuzhen/Audio2Head: code for paper "Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion" in the conference of IJCAI 2021 (github.com)

论文地址：

Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion (ijcai.org)

1、下载代码：

git clone https://github.com/TMElyralab/MuseTalk.git

2、安装环境

创建conda环境：

conda create -n audio2head python=3.6
conda activate audio2head

安装依赖

先安装一个python3.6适配的opencv
pip install opencv-python==4.3.0.38
安装requirements.txt
pip install -r requirements.txt

下载模型

也可以在我的资源获取：【免费】audio2head预处理文件资源-CSDN文库

3、运行推理代码

python inference.py --audio_path ./demo/audio/intro.wav --img_path ./demo/img/trump.jpg

出现问题：

这个问题在issues中有人提到，并且有解决办法，附上链接issuses TypeError: load() missing 1 required positional argument: 'Loader' · Issue #8 · wangsuzhen/Audio2Head · GitHub

将inference.py中的load改成safe_load可以解决

修改后继续运行，又出错了：

经试验，安装版本0.3.0不会出错

pip install imageio-ffmpeg==0.3.0

继续运行，成功了，结果保存在results中

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

流泪的猪

关注关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数字人开源代码：audio2head音频加单张图像驱动视频生成

手把手教你数字人项目audio2head运行
复制链接

扫一扫

数字人解决方案——RAD-NeRF真人视频的三维重建数字人源码与训练方法

知来者逆的博客

06-28

9493

真人视频三维重建数字人的源码与训练方法，算法是基于NeRF改进的RAD-NeRF，可以实现实时对话的数字人效果。

单张图片生成高清虚拟数字人代码

06-21

单张图片生成虚拟数字人代码

参与评论您还未登录，请先登录后发表或查看评论

数字人解决方案— SadTalker语音驱动图像生成视频原理与源码部署

知来者逆的博客

03-18

2584

在制作会说话的头像（Talking Head Generation）时，会面临一些挑战，比如头部运动不自然、面部表情扭曲，甚至人物的身份似乎发生了变化。这些问题通常是由于直接从二维图像中学习头部和面部的运动，而这些二维图像中的运动信息是复杂相互关联的。同样，即使使用三维信息，也可能会遇到表情僵硬和视频不连贯的问题。

【数字人】10、HyperLips | 使用 audio 实现对视频的高保真高清晰的唇部驱动

呆呆的猫的博客

01-17

2166

本文主要介绍数字人唇部驱动方法 HyperLips

视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等

热门推荐

结构之法算法之道

02-18

3万+

真没想到，举例视频生成上一轮的集中爆发才过去三个月，没想OpenAI一出手，该领域又直接变天了自打2.16日OpenAI发布sora以来，不但把同时段Google发布的Gemmi Pro 1.5干没了声音，而且网上各个渠道，大量新闻媒体、自媒体(含公号、微博、博客、视频)做了大量的解读，也引发了圈内外的大量关注，很多人因此认为，视频生成领域自此进入了大规模应用前夕，好比NLP领域中GPT3的发布一开始，我还自以为视频生成这玩意对于有场景的人，是重大利好，比如在影视行业的；

Wav2lip 语音驱动Ai数字人源码与模型

03-16

传统的基于像素的人脸重建损失无法有效约束音频-口型同步。由于面部重建损失是整个图像的计算结果，而唇部区域只占图像的很小一...参考博客：《数字人解决方案——Wav2lip语音驱动唇部动作的技术原理（附整合包下载）》

SadTalker语音驱动肖像图像数字人源码与模型

03-18

SadTalker 模型在三维运动场中学习如何从音频中生成3DMM的3D运动...参考博客《数字人解决方案— SadTalker语音驱动图像生成视频原理与源码部署》博客链接：https://blog.csdn.net/matt45m/article/details/13676466

wav2lip高清虚拟数字人生成代码

06-21

《wav2lip：高清虚拟数字人生成代码详解》在当今的数字时代，虚拟人物的创建与应用已经越来越广泛，从娱乐业到教育领域，甚至商业活动中都能看到它们的身影。而“wav2lip”则是一种先进的技术，它通过将音频（wav...

Metronome Audio Files:节拍器的音频文件-开源

06-29

【标题】"Metronome Audio Files: 节拍器的音频文件-开源"涉及到的主要知识点是关于音乐制作中的节拍器以及音频文件格式在网页上的应用，特别是开源软件的概念。【描述】提到的"Metronome index.html 的音频文件...

音频demo：使用opencore-amr将PCM数据与AMR-NB数据进行相互编解码

weixin_44498318的博客

07-08

1143

由于提供的.a静态库是在x86_64的机器上编译的，所以仅支持该架构的主机上编译运行。$ make如果想要在其他架构的CPU上编译运行，可以使用以下命令（脚本）编译。

基于RK3588的8K视频解码显示案例分享！引领超高清工业视频时代

创龙，嵌入式一体化解决方案商

07-11

432

创龙科技RK3588J工业核心板支持8K@60fps HDMI2.1、8K@30fps DP 1.4a、4K@60fps eDP 1.3和MIPI DSI、1080P@60fps RGB/BT1120等多种高清视频输出接口，可提供出众的超高清“多屏异显”和“多屏同显”解决方案。创龙科技RK3588工业核心板支持8K@60fps H.265、8K@30fps H.264视频硬件解码，支持8K@30fps H.265/H.264视频硬件编码，可提供出众的超高清视频解决方案。这是当前市场上最高分辨率的标准之一。

无损音频格式 FLAC 转 MP3 音频图文教程

简鹿办公的博客

07-09

1111

相比之下，MP3（MPEG Audio Layer 3）作为一种广泛支持的有损压缩音频格式，以其较小的文件体积和相对较高的音质，成为了互联网上最流行的音频格式之一。本文将详细介绍如何使用一款高效、易用的音频格式转换工具 - 简鹿音频格式转换器，来完成FLAC到MP3的转换过程，帮助读者轻松跨越不同音频格式之间的障碍，享受更加便捷的音乐体验。在这个对话框中，浏览到你的FLAC音频文件所在的位置，选中它，然后点击“打开”或“确定”按钮。根据软件的具体设计，这些设置可能位于不同的位置，但通常都很直观易找。

【音视频 | RTSP】SDP(会话描述协议)详解及抓包例子分析

wkd_007的博客

07-09

968

本文主要介绍 SDP（会话描述协议）的格式、语法结构、描述解析等。

音频demo：将PCM数据和opus格式相互编解码

weixin_44498318的博客

07-09

607

解码：在得到编码数据时，先写4个字节标识一下这段数据的大小，方便解码得到这一帧的数据长度。的文件是chatgpt生成的demo，没有实际验证效果，编码：程序可以正常运行，但是编码出来没有播放器可以验证，，不过可以通过下面自己再解码成PCM即可验证是否正常；不好确定设置的码率是否生效。

安防监控/视频汇聚平台EasyCVR设备录像回看请求播放时间和实际时间对不上，是什么原因？

EasyCVR视频融合云平台的技术博客

07-08

248

设备解析时间戳是按照北京时区进行解析，即使更改了设备时区也并无作用；让设备解析时间戳按照国外时间保持一致即可。

C++层视频帧转换成Java层Bitmap

Hfengxiang的博客

07-08

367

在 Java 层，通过文件描述符读取处理后的图像数据，并将其转换为。

视频融合共享平台视频共享融合赋能平台数字化升级医疗体系

Lnton羚通科技

07-08

520

以远程视频通信技术为核心，集成云化、4K、5G、协作和人工智能等技术和产品，深度融合医疗业务场景，为远程医疗提供全流程、全网络、全场景、全贯通、全业务支持。平台支持远程会诊、远程影像诊断、手术示教、重症监护、移动查房、远程探视、院前急救、多学科会诊（MDT）、科室协作等多种应用，推动医疗数字化进程，优化医疗资源配置，促进区域医疗协同发展。- 支持RTSP、RTMP、HTTP-FLV、HLS、WebRTC等多种标准格式的视频流输出，实现PC端、手机端、微信端、电视墙等多终端的视频观看。

一个开源完全免费的无损视频或音频的剪切/裁剪/分割/截取和视频合并工具

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交