【GPT-SoVITS】GPT-SoVITSAPI调用:让二次元角色开口说话,打造专属语音合成系统

请添加图片描述

介绍

GPT-SoVITS 是一个强大的语音合成系统,它结合了 GPT(生成式预训练转换器)和 SoVITS(Soft-VC VITS)两种先进技术:

  • GPT: 负责文本理解和语音生成的控制,能够根据上下文生成自然的语音内容
  • SoVITS: 负责声音转换,可以将生成的语音转换为目标说话人的声音特征

本系统特别针对《凉宫春日》系列的角色进行了训练,可以生成多个角色的自然语音。系统支持多种语言(中文、英文、日文、粤语、韩文等),并提供了丰富的参数调整选项,让用户能够精确控制生成的语音效果。

安装说明

首先需要安装 gradio_client 库:

pip install gradio_client

API 端点说明

1. 获取角色列表

API名称: /change_choices

from gradio_client import Client

client = Client("https://haruhi-gpt-sovits.vip.cpolar.cn/")
result = client.predict(
    api_name="/change_choices"
)
print(result)

参数: 无

返回值:

  • 返回一个包含所有可用角色的列表:
    • 凉宫春日
    • 古泉一树
    • 朝仓凉子
    • 朝比奈实玖瑠(大)
    • 朝比奈实玖瑠(小)
    • 虚妹
    • 长门有希(正常时间线)
    • 长门有希(消失时间线)
    • 阿虚
    • 鹤屋

2. 切换角色

API名称: /change_characters

from gradio_client import Client

client = Client("https://haruhi-gpt-sovits.vip.cpolar.cn/")
result = client.predict(
    character_name="凉宫春日",
    api_name="/change_characters"
)
print(result)

参数:

  • character_name: 角色名称(默认:“凉宫春日”)

返回值: 返回一个包含三个元素的元组

  1. 预设参考音频列表
  2. Sovits模型路径
  3. GPT模型路径

3. 切换预设参考音频

API名称: /change_predef_ref

from gradio_client import Client

client = Client("https://haruhi-gpt-sovits.vip.cpolar.cn/")
result = client.predict(
    character_name="凉宫春日",
    ref_name="14_日常交谈感",
    api_name="/change_predef_ref"
)
print(result)

参数:

  • character_name: 角色名称(默认:“凉宫春日”)
  • ref_name: 预设参考音频名称(默认:“14_日常交谈感”)

返回值: 返回一个包含两个元素的元组

  1. 参考音频文件路径
  2. 参考音频的文本内容

4. 生成语音

API名称: /get_tts_wav

from gradio_client import Client, file

client = Client("https://haruhi-gpt-sovits.vip.cpolar.cn/")
result = client.predict(
    sovits_path="SoVITS_weights_v2/Haruhi_20250113_e1500_s58500.pth",
    gpt_path="GPT_weights_v2/Haruhi_20250113-e10.ckpt",
    ref_wav_path=file('参考音频路径'),
    prompt_text="参考音频的文本",
    prompt_language="日文",
    text="要合成的文本",
    text_language="日文",
    how_to_cut="凑四句一切",
    top_k=15,
    top_p=1,
    temperature=1,
    ref_free=False,
    speed=1,
    if_freeze=False,
    inp_refs=[file('额外参考音频路径')],
    api_name="/get_tts_wav"
)
print(result)

参数说明:

  • sovits_path: SoVits模型路径
  • gpt_path: GPT模型路径
  • ref_wav_path: 参考音频文件路径
  • prompt_text: 参考音频的文本内容
  • prompt_language: 参考音频的语种(中文/英文/日文/粤语/韩文等)
  • text: 需要合成的文本
  • text_language: 需要合成的语种
  • how_to_cut: 文本切分方式(不切/凑四句一切/凑50字一切等)
  • top_k: 采样参数
  • top_p: 采样参数
  • temperature: 采样参数
  • ref_free: 是否开启无参考文本模式
  • speed: 语速
  • if_freeze: 是否直接对上次合成结果调整语速和音色
  • inp_refs: 额外的参考音频文件列表(可选)

返回值: 生成的语音文件路径

### 关于Midjourney与Niji的集成及使用 在探讨Midjourney与Niji的关系时,值得注意的是Niji实际上是作为MidJourney的一部分存在,专注于生成特定类型的图像——即二次元/动漫风格的内容[^1]。 #### 版本差异 对于Niji的不同版本而言,从V4到V5的变化体现了技术的进步和发展方向。具体来说: - **性能提升**:相较于之前的版本,新版本通常会带来更高的质量、分辨率以及更快的渲染速度和GPU效率改进[^4]。 - **特性增强**:随着版本迭代,新的功能被引入以更好地服务于目标受众。例如,在某些情况下,用户可以利用更加细致的艺术风格选项来定制输出效果[^5]。 #### 使用场景 当涉及到具体的创作过程时,使用者可以通过一系列命令与参数调整来自定义想要的效果。比如`/imagine`用于发起想象请求;而像`--niji 5 --style cute`这样的组合则能帮助创作者获得具有独特美学特征的作品[^2]。 此外,还有专门针对商业用途开发的应用程序接口(API),它们不仅支持最新的Midjourney/Niji模型版本(v6),还集成了其他先进的AI工具和服务,如基于GPT架构的语言处理能力、由DALL-E3驱动的文字转图片转换器等[^3]。 ```python # Python示例代码展示如何调用API创建一个简单的应用界面 import requests def generate_image(prompt, model="niji", version=6): url = "https://api.example.com/generate" payload = { 'prompt': prompt, 'model': f"{model}{version}", 'parameters': {"style": "cute"} } response = requests.post(url, json=payload) return response.json() image_data = generate_image("Sakura Kinomoto in her Clear Card outfit") print(image_data['url']) ``` 通过上述方式,开发者可以在自己的项目里轻松嵌入强大的图像生产能力,无论是为了个人爱好还是企业级解决方案都能找到合适的切入点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值