AI应用开发相关目录
本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧
适用于具备一定算法及Python使用基础的人群
- AI应用开发流程概述
- Visual Studio Code及Remote Development插件远程开发
- git开源项目的一些问题及镜像解决办法
- python实现UDP报文通信
- python实现日志生成及定期清理
- Linux终端命令Screen常见用法
- python实现redis数据存储
- python字符串转字典
- python实现文本向量化及文本相似度计算
- python对MySQL数据的常见使用
- 一文总结python的异常数据处理示例
- 基于selenium和bs4的通用数据采集技术(附代码)
- 基于python的知识图谱技术
- 一文理清python学习路径
- Linux、Git、Docker常用指令
- linux和windows系统下的python环境迁移
- linux下python服务定时(自)启动
- windows下基于python语言的TTS开发
- python opencv实现图像分割
- python使用API实现word文档翻译
- yolo-world:”目标检测届大模型“
- 爬虫进阶:多线程爬虫
- python使用modbustcp协议与PLC进行简单通信
- ChatTTS:开源语音合成项目
简介
语音合成,顾名思义。
ChatTTS是专门为对话场景设计的文本转语音模型。支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。
整体感觉语音还是比较自然。
项目优势
对话式 TTS
: ChatTTS针对对话式任务进行了优化,支持多说话人。
细粒度控制
: 模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词。
更好的韵律
: 韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。
项目部署和使用
源码地址:
https://github.com/2noise/ChatTTS
环境部署:
conda create -n ChatTTS python=3.9 # 创建新的虚拟环境
source activate ChatTTS # 激活新建的虚拟环境
pip install -r requirements.txt #安装项目需要的库
使用代码:
import ChatTTS
from wave import Wave_write
import numpy as np
base_path = r'项目路径'
chat = ChatTTS.Chat()
chat.load_models(source='local',local_path=base_path)
# 输入文本
inputs = """hello world"""
# 笑声、停顿等按需要添加的输入文本中具体位置
params_refine_text = {
'prompt': '[oral_2][laugh_0][break_4]'
}
wavs = chat.infer(inputs, params_refine_text=params_refine_text)[0]
sample_rate = 24000
# 转换数据类型并调整到合适的范围
# audio_data_rescaled = (wavs * 32767).astype(np.int16).flatten()
audio_data_rescaled = (wavs * 28000).astype(np.int16).flatten()
# 创建并打开一个wav文件用于写入
with Wave_write('test4.wav') as wave_file:
wave_file.setparams((1, 2, sample_rate, len(audio_data_rescaled), 'NONE', 'not compressed'))
wave_file.writeframes(audio_data_rescaled.tobytes())
更多信息和模型可自行在互联网、hf等网站进行下载。