玩透这个，居然比通关黑悟空都畅快（附小白使用教程）

本文链接：https://blog.csdn.net/weixin_40780178/article/details/141440640

大家好，我是凡人。

就在今天早上已经陆续有大神把《黑神话-悟空》给打通关了，很多社群的通关时长都被不断刷新着，甚至连教程都一块出了，不得不佩服这些肝帝们，看得出大家也是异常兴奋，应该不仅仅是这泼天的流量。

为啥前面说比通关还畅快，是因为我最近在玩一款能让图片开口说话的开源项目，它叫 Hallo，目前已经在Githup上拥有 8.4K 星星了，下面我们来一起了解一下。

一、Hallo 是啥

Hallo 是复旦大学的创新技术项目，官方解释是通过AI将图像分层成为动画，用音频来驱动合成视频。简而言之，就是让图片按照上传的音频进行开口说话，并且口型可以完全对上。是不是大家感觉这个和原来的EMO有些像啊，没错 Hallo 就是 EMO 的开源版本。

Hallo 成功地为静态面部照片注入了生命，能够通过声音中的情感表达来传达到图片中，只需输入一段声音，就能使照片开口说话“复述”这段声音，照片中面部表情也会随着声音的变化而变化，模拟效果极为逼真。

先来看看官方给出宣传片。

二、Hallo 凭啥这么牛

让我们试着想象一下，如果你的声音能唤醒一张沉寂的照片中，让它变得能够开口说话，并且能够表情和神态根据声音中的情感随之改变。

研究团队深入挖掘了如何让面部动作与声音完美同步，创造出既美观又连贯的动画效果。摒弃了传统的参数模型，转而采用一种全新的端到端扩散方法，这就像是给肖像注入了生命。还特别设计了一个音频驱动的视觉合成模块，让嘴唇、表情和姿态动作与你的语音同步得天衣无缝。

通过架构就看出研究团队的用心，他们将基于扩散的生成模型、基于UNet的去噪器、时间对齐技术和参考网络完美地融合在一起。

高度仿真的效果采用了端到端的扩散模型，并特别设计了一个层次化的音频驱动视觉合成架构，设计提升音频输入与视觉输出之间的同步精度，确保嘴唇的开合、脸部表情以及身体姿态的动态变化与声音内容完美匹配，精确的同步不仅增强了视觉效果的真实感，整个模拟过程更加自然和流畅。

分层音频驱动的视觉合成模块是这一系统的核心所在。该模块提供了对表情和姿势丰富多样性的灵活调整能力，可以根据不同个体的特征进行个性化的定制。

微妙的表情变化还是显著的姿态调整，都能够根据输入的音频内容进行精确控制，确保了每个“说话”的图片都能展现出独一无二的风格和身份特质，也极大地扩展了静态图像的表现力和互动性。

三、Hallo 安装及使用

官网：https://fudan-generative-vision.github.io/hallo

GitHup：https://github.com/fudan-generative-vision/hallo

Huggingface：https://huggingface.co/fudan-generative-ai/hallo

论文：https://arxiv.org/pdf/2406.08801

我写过一篇文章是关于ChatTTS的技术文章，结果第一个评论就是没写清楚需要的配置，所以这次吸取教训，Hallo的配置要求也不低。

我愿称它为 AI 配音界的天花板（附一键安装包和12000种音色库）

一）原生Hallo的配置要求

系统要求：Ubuntu 20.04/Ubuntu 22.04，Cuda 12.1
最低显存：12GB
最低内存：12GB

二）原生Hello的安装步骤

1、创建 conda 环境：

conda create -n hallo python=3.10

conda activate hallo

提醒： 3.11 > 部署机器的Python版本 > 3.9

2、使用以下方式安装软件包 pip

pip install -r requirements.txt

pip install .

3、ffmpeg安装

apt-get install ffmpeg

三）原生Hello使用步骤

1、安装训练模块

git lfs install

git clone https://huggingface.co/fudan-generative-ai/hallo pretrained_models

2、运行

只需运行scripts/inference.py并传递source_image并driving_audio作为输入：

python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav

其中根目录${PROJECT_ROOT}/.cache/output.mp4 会将生成的动画结果默认保存到此文件夹下。同时可以通过加入--output 指定输出文件名，可以查看示例。

3、更多配置

usage: inference.py [-h] [-c CONFIG] [--source_image SOURCE_IMAGE] [--driving_audio DRIVING_AUDIO] [--output OUTPUT] [--pose_weight POSE_WEIGHT]

[--face_weight FACE_WEIGHT] [--lip_weight LIP_WEIGHT] [--face_expand_ratio FACE_EXPAND_RATIO]

options:

-h, --help show this help message and exit

-c CONFIG, --config CONFIG

--source_image SOURCE_IMAGE

source image

--driving_audio DRIVING_AUDIO

driving audio

--output OUTPUT output video file name

--pose_weight POSE_WEIGHT

weight of pose

--face_weight FACE_WEIGHT

weight of face

--lip_weight LIP_WEIGHT

weight of lip

--face_expand_ratio FACE_EXPAND_RATIO

face region

以上就是原生Hallo的安装和使用，是不是感觉到异常的麻烦呀，这里我也找到了两个特别方便安装的版本。

四）简化版本的安装

1、hallo-webui

使用Web浏览器方式进行操作Hallo。

使用配置参考原生安装步骤。

Docker : docker compose up -d

启动的映射端口8020，访问 http://localhost:8020 即可

Windows系统 :

克隆此存储库：git clone https://github.com/yourusername/hallo.git
运行install.bat以设置环境并下载预训练模型。（这里比较慢，注意Python版本和）
确保系统上安装了 ffmpeg。它位于何处并不重要，只要系统可以找到它即可。
通过运行启动 Web 界面start.bat。

Linux系统：

克隆此存储库：git clone https://github.com/yourusername/hallo.git
运行install.sh以设置环境并下载预训练模型。
确保你的系统上安装了 ffmpeg。安装命令：sudo apt-get install ffmpeg
通过运行启动 Web 界面start.sh。

windows版本整合包：

https://huggingface.co/daswer123/portable_webuis/resolve/main/hallo-portable-2.zip?download=true

mac版本安装方式：https://colab.research.google.com/drive/1JGkftvdEksrhJbeAUnnRAZNAfZyGjP44?usp=sharing

2、ComfyUI-Hallo

Hallo 的ComfyUI的插件，安装后可以在ComfyUI中使用。

网址：https://github.com/AIFSH/ComfyUI-Hallo

安装步骤：

确保 ffmpeg 安装请参考上面的步骤。
安装 xformers

pip install xformers==0.0.22.post7

pip install accelerate
配置 ComfyUI/custom_nodes

  git clone https://github.com/AIFSH/ComfyUI-Hallo.git

  cd ComfyUI-Hallo

  pip install -r requirements.txt