最新数字人开源项目-hallo

流泪的猪

于 2024-10-09 16:37:28 发布

阅读量122

点赞数 1

分类专栏：数字人文章标签：人工智能深度学习计算机视觉 python

本文链接：https://blog.csdn.net/m0_45267220/article/details/142769624

版权

数字人专栏收录该内容

6 篇文章 0 订阅

订阅专栏

项目地址：GitHub - fudan-generative-vision/hallo: Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation

论文地址：

https://arxiv.org/pdf/2406.08801

1、环境准备

#拉取代码
git clone https://github.com/fudan-generative-vision/hallo.git

#创建conda环境
conda create -n hallo python=3.10
conda activate hallo

#安装pytorch
conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=12.1 -c pytorch -c nvidia

安装依赖：

requirements.txt内容如下：

#安装依赖：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install .

#安装ffmpeg
apt-get install ffmpeg

2、模型下载

模型下载地址：

https://huggingface.co/fudan-generative-ai/hallo

可以手动下载，也可以git

模型夸克资源：
链接：https://pan.quark.cn/s/f7c27ae25205
提取码：VF6K

3、音频加图片推理

python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav

结果保存在.cache目录中

4、说明

对嘴型的效果很不错，缺点是慢

显存12g可推理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

流泪的猪

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

语音识别从入门到进阶一文末附项目/源码

cv君的博客

07-11

2万+

嗨，大家我，欢迎来到AI+语音专栏，本专栏长期更新，每篇文章必备干货，文章附带大量的算法原理+代码实现教学，欢迎关注，一起AI。语音识别原理首先是语音识别和语音唤醒等任务。一听到你就会想起科大讯飞，中国百度等平台，由于这两家企业在中国语音领域占用80+市场，所以他们做得很优秀，不过由于高精技术无法开源，其他企业只得花费大量的金钱去购买其API，而无法研究语音识别等应用，导致民间语音识别发展较慢，今天我们来一饱眼福吧！信号处理，声学特征提取我们都知道声音信号是连续的模拟信号，要让计算机处理首先要转

开源数字人项目Hallo

liu289747235的专栏

07-09

640

如果需要修改监听ip和端口，可以修改文件app.py文件的demo.launch(inbrowser=True, share=share_url)调用代码把ip和端口带上。12G显卡执行时间非常畅3s的视频就需要很长时间，如果10s 20s那就更长了，效率差。最终的到的效果也不怎么样，当然我想要的就是至少半镜的任务，而不是只有大头贴。如果是只有大头贴的张片可能效果还可以一点，不过也没网上说的那么多牛逼。把上面百度网盘的models解压到项目的根目录下。Python选择3.10+吧，我的版本3.11。

参与评论您还未登录，请先登录后发表或查看评论

盘点目前有关数字人的开源项目

debug_ding的博客

07-15

4916

开源最强数字人项目，爆了！（附整合包）

程序员小麦的博客

06-25

1512

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

一件部署安装百度开源数字人项目Hallo！图片视频！效果炸裂！含整合包！开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目：为唱歌和对话提供支持的AI数字人技术（附代码）

代码讲故事

09-12

1399

一件部署安装百度开源数字人项目Hallo！图片视频！效果炸裂！含整合包！开源免费使用阿里蚂蚁集团推出的EchoMimic开源项目：为唱歌和对话提供支持的AI数字人技术（附代码）。

数字人技术：相关论文汇总

newxuyangcao

04-23

863

Distangled face representation learning 单位/会议/时间方法摘要 MM 2022 MegaPortraits: One-shot Megapixel Neural Head Avatars, paper Talking Face Generation 单位/会议/时间方法摘要 – Awesome-Talking-Face: https://github.com/JosephPai/Awesome-Talking-Face

TTS x Hallo: 免费数字人头在线生成

weixin_51674085的博客

06-28

326

TTS 项目实现的可说话、嘴型匹配的数字人头在线 Space。

目前有关数字人的开源项目[转]

小兀的博客

08-27

该项目能够从输入的图像和语音中提取多模态特征，生成自然流畅的数字人形象，广泛应用于虚拟偶像、影视制作和虚拟现实等领域。该项目结合了自然语言处理、语音合成和视频生成技术，能够从输入的对话文本生成自然流畅的虚拟人形象，适用于虚拟主播、在线教育和智能客服等场景。项目简介: ChatTTS 项目通过文本到语音的转换，实现高质量的对话语音生成。该项目结合了3D人脸重建和视频驱动技术，通过对输入视频进行分析和处理，生成与原视频动作一致的3D人脸动画，广泛应用于虚拟形象和数字人视频合成，适用于影视制作和虚拟现实等领域。

免费开源 | AI绘画数字人工具合集大放送！六款超强AI数字人工具使用测评！

A1353192296的博客

07-17

1369

咱们直接举个栗子：今年4月中旬，某东刘强东的数字人“采销东哥”亮相某东的直播间，不仅复刻了刘强东的语速、口音，习惯性动作也一模一样。在讲话时偶尔搓动手指，强调某件事时会配合更大幅度的手部动作，还有时不时地点头等。围观网友表示，都不太能看得出这个东哥竟然是数字人！

上手大模型，武装到牙齿，惊艳所有人！：一些惊艳的大模型应用和边缘端推理实现方案

shiter编写程序的艺术

12-27

672

如果我们想让模型做智能问答，我们可以使用一些包含问题和答案对的数据集来微调模型，使它能够根据给定的问题生成合适的答案。编码器-解码器架构：编码器-解码器架构由编码器（encoder）和解码器（decoder）两部分组成，编码器负责将输入文本转换为一个固定长度的向量表示，解码器负责根据这个向量表示生成输出文本。这是因为增加的编译器步骤允许优化，包括代码的高级表示(例如，循环展开)和低级执行(例如，强制操作对象与硬件处理器原生支持的类型之间的转换) ，这使得代码的执行速度更快，快了一个数量级。

Redis 从入门到入坑--学习编程不良人笔记

狗剩的专栏

12-06

1577

编程不良人学习视频地址 https://www.bilibili.com/video/BV1QE411p7eY Github地址 redis官网 https://redis.io/ redis中文官网 https://www.redis.net.cn/

【原理+实战】AI所有领域SOTA综述（一）语音识别

cv君的博客

04-01

5432

文章目录前言语音识别原理信号处理，声学特征提取识别字符，组成文本声学模型语言模型词汇模型语音声学特征提取：MFCC和LogFBank算法的原理实战一 ASR语音识别模型系统的流程基于HTTP协议的API接口客户端未来实战二调百度和科大讯飞API实战三离线语音识别 Vosk 前言首先，cv君下血本费时整理了AI在音视频领域的大量的方向，形成本文综述，从原理到底层算法，到上层应用，统统透析~本系列由于综述文章过长的原因，所以分开写了。文章附带大量的算法原理+代码实现教学，欢迎关注，一起AI。语音识别原

redis-migrate-tool使用详解

所谓向日葵族

08-02

2581

目录前言安装redis-migrate-tool redis-migrate-tool 命令详解 1. 运行迁移 2. 抽样检查 3. 测试插入一些数据 rmt.conf配置文件监听redis-migrate-tool 总结前言 redis-migrate-tool 是维品会开源的一款redis数据迁移工具，基于redis复制，快速，稳定，github地址为：https:/...

基于Keras的U-Net模型在图像分割与计数中的应用

深度学习实战训练营，一起交流探索深度学习

10-04

1464

网络结构优化：项目基于经典的U-Net模型进行改进，采用了更深的网络层次结构，使模型能够在多尺度上捕捉到图像中的细节信息。特别是针对医学图像分割，项目通过增加卷积层数和引入Dropout层来增强模型的特征提取能力，并有效防止过拟合，从而提高模型在训练数据较少情况下的表现。项目中采用了he_normal初始化器和relu激活函数组合，使得网络在训练时能够更快地收敛，降低梯度消失的风险。自定义数据增强策略：在中实现了一个自定义的图像增强类。

毒蘑菇检测数据集 9200张 14类毒蘑菇带标注 voc yolo

最新发布

阿利同学的博客

10-07

969

毒蘑菇检测数据集 9200张 14类毒蘑菇带标注 voc yolo

大模型~合集5

whaosoft~aiotの开发板商城

10-02

1648

FLock 的机制设计受到了证明权益（PoS）区块链共识机制和桌面游戏《The Resistance》（一种角色扮演类游戏，该游戏的一个变种叫阿瓦隆）的启发。《The Resistance》游戏则通过投票机制，每轮游戏中玩家独立推理并投票，从而实现全局共识。《The Resistance》有两个不匹配的竞争方，其中较大的一方被称为抵抗力量，另一方被称为间谍。在《The Resistance》中，有一个投票机制，在每一轮中，每个玩家进行独立推理并为一个玩家投票，得票最多的玩家将被视为「间谍」并被踢出游戏。

北大对齐团队深度硬核解读：OpenAI o1开启「后训练」时代强化学习新范式

ys707663989的博客

10-06

1662

本文深入探讨了OpenAI o1的技术细节、的实现、合成数据与推理搜索的优化，以及AI安全的新启示，展示了大语言模型在推理能力提升和安全对齐方面的最新进展与未来方向。

【开源开放体系总结】

m0_53291740的博客

10-06

771

书生・浦语大模型全链路开源开放体系的出现，为人工智能领域的发展带来了新的活力和机遇。它涵盖了从模型研发到应用部署的全流程，旨在促进技术的共享与创新，推动人工智能技术在各个领域的广泛应用。本文将对该体系进行详细总结，探讨其各个组成部分的特点、优势以及对人工智能发展的意义。

打印halloworld

09-24

打印 "Hello World" 是最常见的程序示例，通常用于展示如何打开标准输出并显示文本。在大多数编程语言中，这通常涉及到创建一个函数或主程序，然后简单地输出这个字符串。下面是一些常见编程语言中的例子： 1. Python: ```python print("Hello World") ``` 2. Java: ```java public class Main { public static void main(String[] args) { System.out.println("Hello World"); } } ``` 3. JavaScript (在浏览器控制台): ```javascript console.log("Hello World"); ``` 4. C++ (命令行程序): ```cpp #include <iostream> int main() { std::cout << "Hello World"; return 0; } ``` 5. C#: ```csharp using System; class Program { static void Main(string[] args) { Console.WriteLine("Hello World"); } } ```