
语音识别asr与语音合成STT
文章平均质量分 92
我们越来越希望人工智能 (AI) 解决方案能够接受语音命令并提供语音响应。 考虑到越来越多的家居和汽车系统可以通过讲话来进行控制 - 发出诸如“关灯”之类的命令,以及希望获得对“今天会下雨吗”之类的问题的口头回答。为了实现这种交互,AI 系统必须支持两种能力:
语音识别与语音合成
切糕师学AI
技术只是你人生活中很小很小的一小部分,千万不要因为它忽略了其他东西。
展开
-
.Net 使用OpenAI开源语音识别模型Whisper
Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;原创 2023-05-30 20:05:13 · 5887 阅读 · 2 评论 -
ASRT语音识别系统的部署以及模型的使用(运用篇)
ASRT是一个中文语音识别系统,由AI柠檬博主开源在GitHub上。ASRT语音识别工具文档教你如何使用ASRT训练中文语音识别模型并完成部署以及使用模型进行语音识别的操作步骤。文章作者比较惜字如金,文中很多细节之处没有细讲,我在windows上进行部署的时候踩了比较多的坑,特此记录下。本文适用对象:只想搭建一个语音识别服务端,来实现语音识别功能,而不需要训练出自定义的语音识别模型(如:训练出可识别某些方言的模型)。如需训练自定义模型,可参考文章ASRT语音识别系统的部署以及模型训练。原创 2023-05-29 22:39:53 · 2031 阅读 · 2 评论 -
ASRT语音识别系统的部署以及模型训练(模型训练篇)
ASRT是一个中文语音识别系统,由博主开源在GitHub上。并完成部署和训练过程中的操作步骤。文章作者比较惜字如金,文中很多细节之处没有细讲,我在windows上进行部署的时候踩了比较多的坑,特此记录下。原创 2023-04-17 15:30:16 · 2134 阅读 · 0 评论 -
百度飞桨语音PaddleSpeech在win上运行语音识别(ASR)与语音合成(TTS)
PaddleSpeech是百度飞桨深度学习框架下的语音服务工具包。PaddleSpeech包括自监督学习模型、带标点符号的 SOTA/流式 ASR、带文本前端的流式 TTS、说话人验证系统、端到端语音翻译和关键字识别。我在部署运行过程中,遇到很多问题,参考了很多资料,在这里做一个从安装部署到运行测试的、详尽的记录。原创 2023-05-19 11:22:01 · 2213 阅读 · 0 评论 -
开源(离线)中文文本转语音TTS(语音合成)工具整理
“文本转语音” 或者说 “语音合成” 是一种从文本中生成听起来像人类的语音,可以识别单词并形成人类语音。原创 2023-05-11 09:32:27 · 54863 阅读 · 2 评论 -
[译文]15个开源文本转语音(TTS) 工具
文本转语音” 或者说 “语音合成” 是一种从文本中生成听起来像人类的语音,可以识别单词并形成人类语音。1968 年,日本电工实验室的Noriko Umeda 等人向世界介绍了第一个文本转语音系统。1961 年,物理学家小约翰·拉里·凯利 (John Larry Kelly, Jr) 和他的同事路易斯·格斯特曼 (Louis Gerstman) 使用 IBM 704 计算机合成语音,这是贝尔实验室历史上最著名的事件之一。翻译 2023-05-10 15:22:49 · 8661 阅读 · 0 评论 -
开源(离线)中文语音识别ASR(语音转文本)工具整理
ASRT是一个基于深度学习的语音识别工具,可以用于开发最先进的语音识别系统,是由AI柠檬博主(西安电子科技大学 · 西安市大数据与视觉智能重点实验室)从2016年起做的开源语音识别项目,基线为85%识别准确率,在某些条件下可做到95%左右的识别准确率。ASRT包含了语音识别算法服务端(用于训练或部署API服务)和多种平台及编程语言的客户端SDK,支持一句话识别和实时流式识别,相关的代码已经开源在GitHub和Gitee上。微软语音服务通过 Azure 语音资源提供语音转文本和文本转语音功能。原创 2023-05-10 17:07:49 · 15788 阅读 · 0 评论