ASR自动语音识别基础理论

最新推荐文章于 2025-03-26 18:05:55 发布

@Lucia1314

最新推荐文章于 2025-03-26 18:05:55 发布

阅读量2.6k

点赞数 4

分类专栏：语音识别文章标签：语音识别自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49564079/article/details/116778983

版权

语音识别专栏收录该内容

2 篇文章

订阅专栏

基础理论

对话式AI的理解与其子任务的介绍
ASR自动语音识别
自动语音识别工具包的简介及设计架构
使用先进的ASR工具快速实现第一个语音识别应用

对话式AI的理解与其子任务的介绍

人类语言处理

ASR自动语音识别

简史和发展历程

工作流程及原理

ASR自动语音识别简介

ASR（Automatic Speech Recognition）自动语音识别是计算机科学和计算语言学的一个跨学科子领域，其开发的方法和技术使计算机可以将口语识别并翻译成文本。它也被称为计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

ASR自动语音识别应用场景

ASR自动语音识别理论

波
声音讯号参数：
振幅：振幅是指空气分子从静止位置的最大位移。
波峰和波谷：波峰是声波中的最高点，波谷是最低点。
波长：2个连续波峰或波谷之间的距离称为波长。
周期：每个音频信号都以周期的形式遍历。信号的完整向上移动和向下移动形成一个循环。
频率：频率是指信号在一段时间内变化的速度。
把声音转化成计算机可以识别的数据
声波的数字化表达
傅里叶变换为频谱
完整的频谱图
我们将hello语言中的20毫秒声音片段通过傅里叶变换拿到转换后对应的频谱图如下：

我们对每20 毫秒的小声音片段连续经过傅里叶变换的过程直到结束，最终会得到hello语音一个完整的频谱图
声学模型
我们将频谱图中每个小音频片段，连续的输入给声学模型中去，它将找出与当前正在说出的声音相对应的字母。
映射
当跑完的整个音频（一次一个小音频片段）之后，我们将最终得到一份对照表（映射mapping），其中标明了每个音频块和其最有可能对应的字母。这是我说那句「Hello」所对应的映射的大致图案
折叠删除
我们将重复字符折叠: HHHEE_LL_LLLOOO => HE_L_LO，然后我们删除空格符: HE_L_LO becomes => HELLO

自动语音识别工具包的简介及设计架构

使用先进的ASR工具快速实现第一个语音识别应用

（注：内容来源于NVADA的讲座）

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

@Lucia1314 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。