Kokoro-UIAPI(Kokoro-82M模型)的安装与使用方法
引言
Kokoro-UIAPI 是一个基于 Kokoro-82M 模型 的工具,能够为文本和SRT字幕添加语音。它与 OpenAI API 兼容,并支持多种语言和角色。本文将详细介绍 Kokoro-UIAPI 的安装方法及基本使用方法。
目录
功能概述
- 文本与SRT字幕配音:支持为文本和SRT字幕生成语音。
- 在线试听与下载:生成后的语音可以在线试听或下载。
- 字幕同步:支持调整字幕的时间轴。
- OpenAI API 兼容:与 OpenAI API 完全兼容。
安装方法
Linux 环境准备
首先,在 Linux 环境中安装 ffmpeg
。
sudo apt install ffmpeg
# 或者
sudo yum install ffmpeg
克隆仓库与环境配置
接下来,克隆 Kokoro-UIAPI 的仓库,并设置 Python 虚拟环境。
git clone https://github.com/jianchang512/kokoro-uiapi.git
cd kokoro-uiapi
python -m venv venv
source venv/bin/activate
安装所需依赖
运行以下命令安装所需的依赖包。
pip install -r requirements.txt
如果需要生成日语语音,还需要安装 fugashi
。fugashi
是 MeCab 的 Cython 封装工具,用于日语的分词和形态分析。使用 fugashi
需要安装字典,推荐使用 UniDic,可以通过以下命令安装:
pip install 'fugashi[unidic]' jaconv mojimoji
python -m unidic download
启动应用程序
完成所有准备工作后,启动应用程序。
python app.py
启动后,默认的 UI 地址为 http://127.0.0.1:5066
。
API 使用方法
默认的 API 地址为 http://127.0.0.1:5066/v1/audio/speech
。可以通过发送 POST
请求来生成语音。
API 请求示例
{
"input": "需要配音的文本",
"voice": "配音角色",
"speed": 1.0
}
成功后会返回 MP3 格式的音频数据。
OpenAI SDK 使用示例
以下是使用 OpenAI SDK 生成语音的示例代码。
from openai import OpenAI
client = OpenAI(
api_key='123456',
base_url='http://127.0.0.1:5066/v1'
)
try:
response = client.audio.speech.create(
model='tts-1',
input='天气很好,我们去散步吧。',
voice='zf_xiaoyi',
response_format='mp3',
speed=1.0
)
with open('./test_openai.mp3', 'wb') as f:
f.write(response.content)
print("MP3 文件已成功保存为 test_openai.mp3。")
except Exception as e:
print(f"发生错误: {e}")
支持的角色列表
Kokoro-UIAPI 支持以下中文角色:
中文角色
zf_xiaobei
zf_xiaoni
zf_xiaoxiao
zf_xiaoyi
zm_yunjian
zm_yunxi
zm_yunxia
zm_yunyang
总结
Kokoro-UIAPI 是一款功能强大的多语言语音生成工具,兼容 OpenAI API,适用于多种场景。希望本文能为您提供 Kokoro-UIAPI 的安装与使用参考。
更多详细文档和最新信息,请访问 GitHub 仓库。