【语音合成】数据集合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

pyvideotrans

  • 更新时间:2024-12-22

  • 访问地址: GitHub

  • 描述:

    将视频从一种语言翻译为另一种语言,同时支持语音识别转录、语音合成、字幕翻译。

  • 数据集网址:

    https://github.com/jianchang512/pyvideotrans

2

auto-video-generateor

  • 更新时间:2024-11-13

  • 访问地址: GitHub

  • 描述:

    自动视频生成器,给定主题,自动生成解说视频。用户输入主题文字,系统调用大语言模型生成故事或解说的文字,然后进一步调用语音合成接口生成解说的语音,调用文生图接口生成契合文字内容的配图,最后融合语音和配图生成解说视频。

  • 数据集网址:

    https://github.com/kuangdd2024/auto-video-generateor

3

tts-now

  • 更新时间:2024-12-21

  • 访问地址: GitHub

  • 描述:

    跨平台基于云平台(阿里云、讯飞等)语音合成 API 的文字转语音助手。支持单文本快速合成和批量合成。支持windows、macOS、Linux。

  • 数据集网址:

    https://github.com/funnyzak/tts-now

4

ChatTTS-ui

  • 更新时间:2024-12-10

  • 访问地址: GitHub

  • 描述:

    一个简单的本地网页界面,使用ChatTTS将文字合成为语音,同时支持对外提供API接口。

  • 数据集网址:

    https://github.com/jianchang512/ChatTTS-ui

5

insmess-speech

  • 更新时间:2024-09-22

  • 访问地址: GitHub

  • 描述:

    即迅语音识别服务,支持语音识别(ASR)、语音合成(TTS)、声纹识别(VPR)等功能,适配国产化arm操作系统,支持CPU快速语音识别。

    采用开放式架构设计,构建一体化的人工智能语音平台。

    即迅语音识别服务(insmess-speech)支持私有化部署,通过组件式的部署方式可为客户提供单个或多个人工智能语音能力。适配国产化服务器,能够在多种国产化服务器上流畅运行。通过标准的HTTP、websocket服务接口为客户提供便捷的平台对接方式,让客户打造属于自己的人工智能语音平台。

  • 数据集网址:

    https://github.com/insmess/insmess-speech

6

Medical-Robot-AI

  • 更新时间:2024-12-13

  • 访问地址: GitHub

  • 描述:

    基于Rasa框架实现的智能医疗机器人 功能包含: 医药问答 智能问药 疾病诊断 病症查询 症状查询 闲聊 天气查询 语音对话 使用手段包括: rasa框架 知识图谱 neo4j数据库 语音识别 语音合成 开放API 等功能。

  • 数据集网址:

    https://github.com/LuoFanA595/Medical-Robot-AI

7

AI-Vtuber

  • 更新时间:2024-09-22

  • 访问地址: GitHub

  • 描述:

    一个高自由度的端到端的可定制AI-VTuber。支持对接哔哩哔哩直播间,以智谱API作为语言基座模型,拥有意图识别、长短期记忆(直接记忆和联想记忆),支持搭建认知库、歌曲作品库,接入了当前热门的一些语音转换、语音合成、图像生成、数字人驱动项目,并提供了一个便于操作的客户端。

  • 数据集网址:

    https://github.com/whoiswennie/AI-Vtuber

8

hailuo-free-api

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    海螺AI大模型逆向API【特长:超自然语音】,支持高速流式输出、语音合成、联网搜索、长文档解读、图像解析、多轮对话,零配置部署,多路token支持,自动清理会话痕迹。

    支持高速流式输出、支持多轮对话、支持语音合成、语音识别、支持联网搜索、支持长文档解读、支持图像解析,零配置部署,多路token支持,自动清理会话痕迹。

  • 数据集网址:

    https://github.com/LLM-Red-Team/hailuo-free-api

9

fast-tts

  • 更新时间:2024-12-01

  • 访问地址: GitHub

  • 描述:

    Fast-TTS 是一个基于异步框架的文本到语音转换(TTS)生成器项目。该项目利用了异步编程技术来高效处理请求和响应,实现了快速、秒级的流式生成长文本语音播放服务。Fast-TTS 可以快速地将长文本转换为语音流,并实时播放,适用于多种应用场景,如语音合成、智能助手、内容朗读等。

  • 用途:

    异步处理:使用异步框架和函数来高效处理HTTP请求。

    支持多种语言和声音:通过微软TTS服务,支持多种语言和声音选项。

    简单易用的API:提供简洁的API接口,便于集成和扩展。

    实时语音生成:快速响应生成音频内容,适用于实时应用场景。

  • 数据集网址:

    https://github.com/donzell888/fast-tts

10

MyArxivPodcast

  • 更新时间:2024-11-01

  • 访问地址: GitHub

  • 描述:

     一个全自动的学术论文播客生成系统,支持从arXiv网站爬取最新科技资讯,使用LLM生成结构化对话脚本,并通过语音合成技术输出专业的播客音频。集新闻采集、内容生成、语音合成于一体的AI播客工具。

  • 用途:

    自动爬取 arXiv 网站的最新学术论文

    使用大语言模型生成结构化的播客对话脚本

    支持自定义关键词和时间范围的新闻筛选

    通过百度文本转语音 API 生成自然的播客音频

    完整的日志记录和文章引用追踪

    支持多种音色和语音参数调节

  • 数据集网址:

    https://github.com/MJy1023/MyArxivPodcast

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值