大家好,我是凡人。
就在今天早上已经陆续有大神把《黑神话-悟空》给打通关了,很多社群的通关时长都被不断刷新着,甚至连教程都一块出了,不得不佩服这些肝帝们,看得出大家也是异常兴奋,应该不仅仅是这泼天的流量。
为啥前面说比通关还畅快,是因为我最近在玩一款能让图片开口说话的开源项目,它叫 Hallo,目前已经在Githup上拥有 8.4K 星星了,下面我们来一起了解一下。
一、Hallo 是啥
Hallo 是复旦大学的创新技术项目,官方解释是通过AI将图像分层成为动画,用音频来驱动合成视频。简而言之,就是让图片按照上传的音频进行开口说话,并且口型可以完全对上。是不是大家感觉这个和原来的EMO有些像啊,没错 Hallo 就是 EMO 的开源版本。
Hallo 成功地为静态面部照片注入了生命,能够通过声音中的情感表达来传达到图片中,只需输入一段声音,就能使照片开口说话“复述”这段声音,照片中面部表情也会随着声音的变化而变化,模拟效果极为逼真。
先来看看官方给出宣传片。
二、Hallo 凭啥这么牛
让我们试着想象一下,如果你的声音能唤醒一张沉寂的照片中,让它变得能够开口说话,并且能够表情和神态根据声音中的情感随之改变。
研究团队深入挖掘了如何让面部动作与声音完美同步,创造出既美观又连贯的动画效果。摒弃了传统的参数模型,转而采用一种全新的端到端扩散方法,这就像是给肖像注入了生命。还特别设计了一个音频驱动的视觉合成模块,让嘴唇、表情和姿态动作与你的语音同步得天衣无缝。
通过架构就看出研究团队的用心,他们将基于扩散的生成模型、基于UNet的去噪器、时间对齐技术和参考网络完美地融合在一起。
高度仿真的效果采用了端到端的扩散模型,并特别设计了一个层次化的音频驱动视觉合成架构,设计提升音频输入与视觉输出之间的同步精度,确保嘴唇的开合、脸部表情以及身体姿态的动态变化与声音内容完美匹配,精确的同步不仅增强了视觉效果的真实感,整个模拟过程更加自然和流畅。
分层音频驱动的视觉合成模块是这一系统的核心所在。该模块提供了对表情和姿势丰富多样性的灵活调整能力,可以根据不同个体的特征进行个性化的定制。
微妙的表情变化还是显著的姿态调整,都能够根据输入的音频内容进行精确控制,确保了每个“说话”的图片都能展现出独一无二的风格和身份特质,也极大地扩展了静态图像的表现力和互动性。
三、Hallo 安装及使用
官网:https://fudan-generative-vision.github.io/hallo
GitHup:https://github.com/fudan-generative-vision/hallo
Huggingface:https://huggingface.co/fudan-generative-ai/hallo
论文:https://arxiv.org/pdf/2406.08801
我写过一篇文章是关于ChatTTS的技术文章,结果第一个评论就是没写清楚需要的配置,所以这次吸取教训,Hallo的配置要求也不低。
我愿称它为 AI 配音界的天花板(附一键安装包和12000种音色库)
一)原生Hallo的配置要求
-
系统要求:Ubuntu 20.04/Ubuntu 22.04,Cuda 12.1
-
最低显存:12GB
-
最低内存:12GB
二)原生Hello的安装步骤
1、创建 conda 环境:
conda create -n hallo python=3.10
conda activate hallo
提醒: 3.11 > 部署机器的Python版本 > 3.9
2、使用以下方式安装软件包 pip
pip install -r requirements.txt
pip install .
3、ffmpeg安装
apt-get install ffmpeg
三)原生Hello使用步骤
1、安装训练模块
git lfs install
git clone https://huggingface.co/fudan-generative-ai/hallo pretrained_models
2、运行
只需运行scripts/inference.py
并传递source_image
并driving_audio
作为输入:
python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav
其中根目录${PROJECT_ROOT}/.cache/output.mp4
会将生成的动画结果默认保存到此文件夹下。同时可以通过加入--output
指定输出文件名,可以查看示例。
3、更多配置
usage: inference.py [-h] [-c CONFIG] [--source_image SOURCE_IMAGE] [--driving_audio DRIVING_AUDIO] [--output OUTPUT] [--pose_weight POSE_WEIGHT]
[--face_weight FACE_WEIGHT] [--lip_weight LIP_WEIGHT] [--face_expand_ratio FACE_EXPAND_RATIO]
options:
-h, --help show this help message and exit
-c CONFIG, --config CONFIG
--source_image SOURCE_IMAGE
source image
--driving_audio DRIVING_AUDIO
driving audio
--output OUTPUT output video file name
--pose_weight POSE_WEIGHT
weight of pose
--face_weight FACE_WEIGHT
weight of face
--lip_weight LIP_WEIGHT
weight of lip
--face_expand_ratio FACE_EXPAND_RATIO
face region
以上就是原生Hallo的安装和使用,是不是感觉到异常的麻烦呀,这里我也找到了两个特别方便安装的版本。
四)简化版本的安装
1、hallo-webui
使用Web浏览器方式进行操作Hallo。
使用配置参考原生安装步骤。
Docker : docker compose up -d
启动的映射端口8020,访问 http://localhost:8020 即可
Windows系统 :
-
克隆此存储库:git clone https://github.com/yourusername/hallo.git
-
运行
install.bat
以设置环境并下载预训练模型。(这里比较慢,注意Python版本和) -
确保系统上安装了 ffmpeg。它位于何处并不重要,只要系统可以找到它即可。
-
通过运行启动 Web 界面
start.bat
。
Linux系统:
-
克隆此存储库:git clone https://github.com/yourusername/hallo.git
-
运行
install.sh
以设置环境并下载预训练模型。 -
确保你的系统上安装了 ffmpeg。安装命令:sudo apt-get install ffmpeg
-
通过运行启动 Web 界面
start.sh
。
windows版本整合包:
https://huggingface.co/daswer123/portable_webuis/resolve/main/hallo-portable-2.zip?download=true
mac版本安装方式:https://colab.research.google.com/drive/1JGkftvdEksrhJbeAUnnRAZNAfZyGjP44?usp=sharing
2、ComfyUI-Hallo
Hallo 的ComfyUI的插件,安装后可以在ComfyUI中使用。
网址:https://github.com/AIFSH/ComfyUI-Hallo
安装步骤:
-
确保 ffmpeg 安装请参考上面的步骤。
-
安装 xformers
pip install xformers==0.0.22.post7
pip install accelerate
-
配置 ComfyUI/custom_nodes
git clone https://github.com/AIFSH/ComfyUI-Hallo.git
cd ComfyUI-Hallo
pip install -r requirements.txt
3、在线Demo
tts-hallo-talking-portrait:https://huggingface.co/spaces/fffiloni/tts-hallo-talking-portrait
同时还可以克隆声音非常好用。
四、Hallo 能帮我们做啥
-
虚拟偶像:可以让虚拟偶像的图片更加生动,实现唇形、表情和姿态的精准变化,使其在直播、视频等场景中表现更加自然和逼真。
-
影视制作:用于制作数字角色的动画,为角色添加更加细腻的表情和口型同步,提升影片的质量和真实感。
-
游戏开发:为游戏中的角色赋予生动的表情和动作,增强玩家的沉浸感。例如,在一些剧情类游戏中,让角色的对话更加生动。
-
教育和培训:制作教育动画或虚拟教师,以更吸引人的方式呈现教学内容。
-
人机交互:在语音交互系统中,让虚拟形象根据语音指令做出相应的动作和表情,提升交互的趣味性和直观性。
-
广告和营销:创建具有吸引力的虚拟代言人或产品展示动画。
-
有声读物和音频内容:为故事中的角色配图并使其“动起来”,增加有声读物的趣味性。
-
社交媒体和短视频:制作独特的图片动画内容,吸引用户关注。
-
艺术创作:帮助艺术家实现一些特殊的视觉效果或创意表达。
-
语音助手可视化:使语音助手在设备上以更生动的形象呈现。
怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!