本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。
1
pyvideotrans
-
更新时间:2024-12-22
-
访问地址: GitHub
-
描述:
将视频从一种语言翻译为另一种语言,同时支持语音识别转录、语音合成、字幕翻译。
-
数据集网址:
https://github.com/jianchang512/pyvideotrans
2
auto-video-generateor
-
更新时间:2024-11-13
-
访问地址: GitHub
-
描述:
自动视频生成器,给定主题,自动生成解说视频。用户输入主题文字,系统调用大语言模型生成故事或解说的文字,然后进一步调用语音合成接口生成解说的语音,调用文生图接口生成契合文字内容的配图,最后融合语音和配图生成解说视频。
-
数据集网址:
https://github.com/kuangdd2024/auto-video-generateor
3
tts-now
-
更新时间:2024-12-21
-
访问地址: GitHub
-
描述:
跨平台基于云平台(阿里云、讯飞等)语音合成 API 的文字转语音助手。支持单文本快速合成和批量合成。支持windows、macOS、Linux。
-
数据集网址:
https://github.com/funnyzak/tts-now
4
ChatTTS-ui
-
更新时间:2024-12-10
-
访问地址: GitHub
-
描述:
一个简单的本地网页界面,使用ChatTTS将文字合成为语音,同时支持对外提供API接口。
-
数据集网址:
https://github.com/jianchang512/ChatTTS-ui
5
insmess-speech
-
更新时间:2024-09-22
-
访问地址: GitHub
-
描述:
即迅语音识别服务,支持语音识别(ASR)、语音合成(TTS)、声纹识别(VPR)等功能,适配国产化arm操作系统,支持CPU快速语音识别。
采用开放式架构设计,构建一体化的人工智能语音平台。
即迅语音识别服务(insmess-speech)支持私有化部署,通过组件式的部署方式可为客户提供单个或多个人工智能语音能力。适配国产化服务器,能够在多种国产化服务器上流畅运行。通过标准的HTTP、websocket服务接口为客户提供便捷的平台对接方式,让客户打造属于自己的人工智能语音平台。
-
数据集网址:
https://github.com/insmess/insmess-speech
6
Medical-Robot-AI
-
更新时间:2024-12-13
-
访问地址: GitHub
-
描述:
基于Rasa框架实现的智能医疗机器人 功能包含: 医药问答 智能问药 疾病诊断 病症查询 症状查询 闲聊 天气查询 语音对话 使用手段包括: rasa框架 知识图谱 neo4j数据库 语音识别 语音合成 开放API 等功能。
-
数据集网址:
https://github.com/LuoFanA595/Medical-Robot-AI
7
AI-Vtuber
-
更新时间:2024-09-22
-
访问地址: GitHub
-
描述:
一个高自由度的端到端的可定制AI-VTuber。支持对接哔哩哔哩直播间,以智谱API作为语言基座模型,拥有意图识别、长短期记忆(直接记忆和联想记忆),支持搭建认知库、歌曲作品库,接入了当前热门的一些语音转换、语音合成、图像生成、数字人驱动项目,并提供了一个便于操作的客户端。
-
数据集网址:
https://github.com/whoiswennie/AI-Vtuber
8
hailuo-free-api
-
更新时间:2024-12-24
-
访问地址: GitHub
-
描述:
海螺AI大模型逆向API【特长:超自然语音】,支持高速流式输出、语音合成、联网搜索、长文档解读、图像解析、多轮对话,零配置部署,多路token支持,自动清理会话痕迹。
支持高速流式输出、支持多轮对话、支持语音合成、语音识别、支持联网搜索、支持长文档解读、支持图像解析,零配置部署,多路token支持,自动清理会话痕迹。
-
数据集网址:
https://github.com/LLM-Red-Team/hailuo-free-api
9
fast-tts
-
更新时间:2024-12-01
-
访问地址: GitHub
-
描述:
Fast-TTS 是一个基于异步框架的文本到语音转换(TTS)生成器项目。该项目利用了异步编程技术来高效处理请求和响应,实现了快速、秒级的流式生成长文本语音播放服务。Fast-TTS 可以快速地将长文本转换为语音流,并实时播放,适用于多种应用场景,如语音合成、智能助手、内容朗读等。
-
用途:
异步处理:使用异步框架和函数来高效处理HTTP请求。
支持多种语言和声音:通过微软TTS服务,支持多种语言和声音选项。
简单易用的API:提供简洁的API接口,便于集成和扩展。
实时语音生成:快速响应生成音频内容,适用于实时应用场景。
-
数据集网址:
https://github.com/donzell888/fast-tts
10
MyArxivPodcast
-
更新时间:2024-11-01
-
访问地址: GitHub
-
描述:
一个全自动的学术论文播客生成系统,支持从arXiv网站爬取最新科技资讯,使用LLM生成结构化对话脚本,并通过语音合成技术输出专业的播客音频。集新闻采集、内容生成、语音合成于一体的AI播客工具。
-
用途:
自动爬取 arXiv 网站的最新学术论文
使用大语言模型生成结构化的播客对话脚本
支持自定义关键词和时间范围的新闻筛选
通过百度文本转语音 API 生成自然的播客音频
完整的日志记录和文章引用追踪
支持多种音色和语音参数调节
-
数据集网址:
https://github.com/MJy1023/MyArxivPodcast