其他
文章平均质量分 91
不便分类的文章
fj_changing
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Ubuntu 22.04部署CosyVoice
本文记录了在WSL环境下部署CosyVoice语音合成模型时遇到的主要问题及解决方案。关键步骤包括:修改requirements.txt指定GPU版PyTorch 2.9.1+cu128,安装CUDA 12.8工具包和cuDNN,解决torchaudio API变更导致的音频加载问题,修复librosa处理torch.Tensor的兼容性问题,以及安装ffmpeg解决ffprobe缺失问题。通过调整webui.py中的音频处理逻辑,最终成功启动WebUI并实现语音合成功能。原创 2025-11-29 11:22:35 · 1189 阅读 · 0 评论 -
windows11部署SoulX-Podcast
本文记录了在Windows 11笔记本(8G显存)上部署SoulX-Podcast语音合成项目的完整过程。主要步骤包括:创建Python 3.11虚拟环境,手动安装GPU版torch和相关依赖,解决triton包安装问题(需改为triton-windows),下载1.7B模型文件。遇到的主要问题有:Gradio 6.0版本不兼容(需降级到5.50.0)、缺少torchcodec导致音频处理失败、FFmpeg版本冲突等。通过conda安装FFmpeg并重新安装torchcodec后问题解决。最终成功运行Web原创 2025-11-22 19:47:39 · 1786 阅读 · 0 评论 -
yolo目标检测和姿态识别和目标追踪
yolo目标检测和姿态识别和目标追踪原创 2024-10-24 22:44:16 · 1136 阅读 · 1 评论 -
百度飞桨PaddleSpeech的简单使用
百度飞桨PaddleSpeech的简单使用。PaddleSpeech是基于飞桨PaddlePaddle的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,一些典型的应用示例如下:语音识别、语音翻译 (英译中)、语音合成、标点恢复等。我只用到了语音识别(语音转文字)、语音合成(文字转语音)。原创 2023-03-02 17:13:15 · 11857 阅读 · 0 评论 -
百度飞桨PaddleOCR的简单使用
PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地。PaddleOCR是一个图像识别库,我只是用到了它的OCR功能,就是识别图片中的文字。其他的功能也很强大,我没用到。...原创 2022-08-09 11:55:00 · 6156 阅读 · 0 评论 -
Foxmail 7.2数据迁移,导入旧数据
Foxmail 7.2邮件数据迁移,导入旧邮件数据。原创 2021-12-11 21:38:06 · 15027 阅读 · 0 评论
分享