【语音合成】数据集合集！

计算机科研之友（Friend）

于 2024-12-27 13:46:38 发布

阅读量627

点赞数 16

文章标签：数据挖掘计算机视觉人机交互机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kyzy_1919/article/details/144767048

版权

本文将为您介绍经典、热门的数据集，希望对您在选择适合的数据集时有所帮助。

1

pyvideotrans

更新时间：2024-12-22
访问地址: GitHub
描述：

将视频从一种语言翻译为另一种语言，同时支持语音识别转录、语音合成、字幕翻译。
数据集网址：

https://github.com/jianchang512/pyvideotrans

2

auto-video-generateor

更新时间：2024-11-13
访问地址: GitHub
描述：

自动视频生成器，给定主题，自动生成解说视频。用户输入主题文字，系统调用大语言模型生成故事或解说的文字，然后进一步调用语音合成接口生成解说的语音，调用文生图接口生成契合文字内容的配图，最后融合语音和配图生成解说视频。
数据集网址：

https://github.com/kuangdd2024/auto-video-generateor

3

tts-now

更新时间：2024-12-21
访问地址: GitHub
描述：

跨平台基于云平台(阿里云、讯飞等)语音合成 API 的文字转语音助手。支持单文本快速合成和批量合成。支持windows、macOS、Linux。
数据集网址：

https://github.com/funnyzak/tts-now

4

ChatTTS-ui

更新时间：2024-12-10
访问地址: GitHub
描述：

一个简单的本地网页界面，使用ChatTTS将文字合成为语音，同时支持对外提供API接口。
数据集网址：

https://github.com/jianchang512/ChatTTS-ui

5

insmess-speech

更新时间：2024-09-22
访问地址: GitHub
描述：

即迅语音识别服务，支持语音识别（ASR）、语音合成（TTS）、声纹识别（VPR）等功能，适配国产化arm操作系统，支持CPU快速语音识别。

采用开放式架构设计，构建一体化的人工智能语音平台。

即迅语音识别服务（insmess-speech）支持私有化部署，通过组件式的部署方式可为客户提供单个或多个人工智能语音能力。适配国产化服务器，能够在多种国产化服务器上流畅运行。通过标准的HTTP、websocket服务接口为客户提供便捷的平台对接方式，让客户打造属于自己的人工智能语音平台。
数据集网址：

https://github.com/insmess/insmess-speech

6

Medical-Robot-AI

更新时间：2024-12-13
访问地址: GitHub
描述：

基于Rasa框架实现的智能医疗机器人功能包含: 医药问答智能问药疾病诊断病症查询症状查询闲聊天气查询语音对话使用手段包括: rasa框架知识图谱 neo4j数据库语音识别语音合成开放API 等功能。
数据集网址：

https://github.com/LuoFanA595/Medical-Robot-AI

7

AI-Vtuber

更新时间：2024-09-22
访问地址: GitHub
描述：

一个高自由度的端到端的可定制AI-VTuber。支持对接哔哩哔哩直播间，以智谱API作为语言基座模型，拥有意图识别、长短期记忆（直接记忆和联想记忆），支持搭建认知库、歌曲作品库，接入了当前热门的一些语音转换、语音合成、图像生成、数字人驱动项目，并提供了一个便于操作的客户端。
数据集网址：

https://github.com/whoiswennie/AI-Vtuber

8

hailuo-free-api

更新时间：2024-12-24
访问地址: GitHub
描述：

海螺AI大模型逆向API【特长：超自然语音】，支持高速流式输出、语音合成、联网搜索、长文档解读、图像解析、多轮对话，零配置部署，多路token支持，自动清理会话痕迹。

支持高速流式输出、支持多轮对话、支持语音合成、语音识别、支持联网搜索、支持长文档解读、支持图像解析，零配置部署，多路token支持，自动清理会话痕迹。
数据集网址：

https://github.com/LLM-Red-Team/hailuo-free-api

9

fast-tts

更新时间：2024-12-01
访问地址: GitHub
描述：

Fast-TTS 是一个基于异步框架的文本到语音转换（TTS）生成器项目。该项目利用了异步编程技术来高效处理请求和响应，实现了快速、秒级的流式生成长文本语音播放服务。Fast-TTS 可以快速地将长文本转换为语音流，并实时播放，适用于多种应用场景，如语音合成、智能助手、内容朗读等。
用途：

异步处理：使用异步框架和函数来高效处理HTTP请求。

支持多种语言和声音：通过微软TTS服务，支持多种语言和声音选项。

简单易用的API：提供简洁的API接口，便于集成和扩展。

实时语音生成：快速响应生成音频内容，适用于实时应用场景。
数据集网址：

https://github.com/donzell888/fast-tts

10

MyArxivPodcast

更新时间：2024-11-01
访问地址: GitHub
描述：

一个全自动的学术论文播客生成系统，支持从arXiv网站爬取最新科技资讯，使用LLM生成结构化对话脚本，并通过语音合成技术输出专业的播客音频。集新闻采集、内容生成、语音合成于一体的AI播客工具。
用途：

自动爬取 arXiv 网站的最新学术论文

使用大语言模型生成结构化的播客对话脚本

支持自定义关键词和时间范围的新闻筛选

通过百度文本转语音 API 生成自然的播客音频

完整的日志记录和文章引用追踪

支持多种音色和语音参数调节
数据集网址：

https://github.com/MJy1023/MyArxivPodcast

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。