字节LatentSync唇形同步模型本地部署

近期字节跳动开源了一个通过音频驱动人物口型的模型LatentSync,记录一下本地部署的过程。

代码:https://github.com/bytedance/LatentSync

只是用到了inference,没有用到train,所以就只需从https://huggingface.co/chunyu-li/LatentSync下载latentsync_unet.pt 、 tiny.pt这两个模型文件,(setup_env.sh会去下载包括训练在内的所有模型文件)

根据inference.sh设置模型存放路径。

还需依赖其他模型,由于不太喜欢在运行的时候再去下载各种模型,所以提前下载好,并指定位置。(为了简便就直接修改最底层代码了)

有以下3处会去下载模型:

①script/inference.py

下载链接:https://huggingface.co/stabilityai/sd-vae-ft-mse

②<your_python_env>/site-packages/face_alignment/detection/sfd/sfd_detector.py

下载链接见下图

③<your_python_env>/site-packages/face_alignment/api.py

下载链接:https://www.adrianbulat.com/downloads/python-fan/2DFAN4-cd938726ad.zip

最后,sh inference.sh

补充:由于开源出来的模型全部是在英文数据集上训练的,经测试在中文上的效果稍有欠缺,要提升在中文上的效果,需要再用中文数据训练。

### LatentSync 本地部署教程 对于希望在本地环境中部署 LatentSync 的用户而言,虽然 Ollama 提供了一个强大的大模型管理工具来简化诸如训练、部署以及监控等一系列操作[^1],但是针对 LatentSync 特定的部署流程并未直接提及。通常情况下,部署类似的复杂系统涉及几个关键方面: #### 准备环境 确保拥有适合运行所需服务的操作系统版本和支持软件包。这可能涉及到安装特定版本的 Python 或者其他依赖项。 #### 获取源码或二进制文件 访问官方仓库或者发布页面下载最新的稳定版 LatentSync 源代码或者是预编译好的二进制执行文件。如果存在专用的分发渠道,则应按照其指引获取资源。 #### 安装依赖库 依据项目文档中的说明,利用 pip 或 conda 等工具安装必要的Python 库和其他外部依赖关系。对于支持 TensorFlow 和 PyTorch 这样的多框架兼容性的平台来说,确认所选框架已经正确配置也是很重要的。 #### 配置参数调整 编辑配置文件以适应具体的硬件条件和业务逻辑需求。这部分工作往往包括但不限于设置数据库连接字符串、API 密钥以及其他敏感信息的安全存储方式。 #### 启动服务并验证状态 启动应用程序之后,应当立即检查日志输出查看是否存在错误提示,并通过浏览器或其他客户端尝试发起请求测试接口响应情况。 ```bash # 假设这是启动脚本的一个例子 ./start-latentsync.sh ``` 由于具体细节会因实际项目的不同而有所差异,在进行上述每一步骤前都建议仔细阅读官方提供的最新文档资料获得最准确指导。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值