ChatTTS：开源语音合成项目

最新推荐文章于 2024-06-06 10:37:34 发布

写代码的中青年

最新推荐文章于 2024-06-06 10:37:34 发布

阅读量609

点赞数 12

分类专栏： AI应用开发文章标签： python TTS 语音合成

本文链接：https://blog.csdn.net/qq_43128256/article/details/139350308

版权

AI应用开发专栏收录该内容

35 篇文章 0 订阅

订阅专栏

AI应用开发相关目录

本专栏包括AI应用开发相关内容分享，包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧
适用于具备一定算法及Python使用基础的人群

AI应用开发流程概述
Visual Studio Code及Remote Development插件远程开发
git开源项目的一些问题及镜像解决办法
python实现UDP报文通信
python实现日志生成及定期清理
Linux终端命令Screen常见用法
python实现redis数据存储
python字符串转字典
python实现文本向量化及文本相似度计算
python对MySQL数据的常见使用
一文总结python的异常数据处理示例
基于selenium和bs4的通用数据采集技术（附代码）
基于python的知识图谱技术
一文理清python学习路径
Linux、Git、Docker常用指令
linux和windows系统下的python环境迁移
linux下python服务定时（自）启动
windows下基于python语言的TTS开发
python opencv实现图像分割
python使用API实现word文档翻译
yolo-world：”目标检测届大模型“
爬虫进阶：多线程爬虫
python使用modbustcp协议与PLC进行简单通信
ChatTTS：开源语音合成项目

简介

语音合成，顾名思义。
ChatTTS是专门为对话场景设计的文本转语音模型。支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。
整体感觉语音还是比较自然。

项目优势

对话式 TTS: ChatTTS针对对话式任务进行了优化，支持多说话人。
细粒度控制: 模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词。
更好的韵律: 韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。

项目部署和使用

源码地址：

https://github.com/2noise/ChatTTS

在这里插入图片描述

环境部署：

conda create -n ChatTTS python=3.9   # 创建新的虚拟环境
source activate ChatTTS       # 激活新建的虚拟环境
pip install -r requirements.txt  #安装项目需要的库

使用代码：

import ChatTTS
from wave import Wave_write
import numpy as np

base_path = r'项目路径'
chat = ChatTTS.Chat()
chat.load_models(source='local',local_path=base_path)

# 输入文本
inputs = """hello world"""

# 笑声、停顿等按需要添加的输入文本中具体位置
params_refine_text = {
  'prompt': '[oral_2][laugh_0][break_4]'
}
wavs = chat.infer(inputs, params_refine_text=params_refine_text)[0]

sample_rate = 24000
# 转换数据类型并调整到合适的范围
# audio_data_rescaled = (wavs * 32767).astype(np.int16).flatten()
audio_data_rescaled = (wavs * 28000).astype(np.int16).flatten()

# 创建并打开一个wav文件用于写入
with Wave_write('test4.wav') as wave_file:
    wave_file.setparams((1, 2, sample_rate, len(audio_data_rescaled), 'NONE', 'not compressed'))
    wave_file.writeframes(audio_data_rescaled.tobytes())

更多信息和模型可自行在互联网、hf等网站进行下载。

写代码的中青年

关注

12
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
ChatTTS：开源语音合成项目

语音合成，顾名思义。ChatTTS是专门为对话场景设计的文本转语音模型。支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。整体感觉语音还是比较自然。
复制链接

扫一扫