ASR自动语音识别基础理论

对话式AI的理解与其子任务的介绍

人类语言处理
人类语言处理

ASR自动语音识别

简史和发展历程

1
2

工作流程及原理

ASR自动语音识别简介

ASR(Automatic Speech Recognition)自动语音识别是计算机科学和计算语言学的一个跨学科子领域,其开发的方法和技术使计算机可以将口语识别并翻译成文本。它也被称为计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。定义

ASR自动语音识别应用场景

场景

ASR自动语音识别理论


  • 声音讯号参数:
    振幅:振幅是指空气分子从静止位置的最大位移。
    波峰和波谷:波峰是声波中的最高点,波谷是最低点。
    波长:2个连续波峰或波谷之间的距离称为波长。
    周期:每个音频信号都以周期的形式遍历。信号的完整向上移动和向下移动形成一个循环。
    频率:频率是指信号在一段时间内变化的速度。
    波
  • 把声音转化成计算机可以识别的数据
    转化
  • 声波的数字化表达
    数字化
  • 傅里叶变换为频谱
    傅里叶变换
  • 完整的频谱图
    我们将hello语言中的20毫秒声音片段通过傅里叶变换拿到转换后对应的频谱图如下:
    1
    我们对每20 毫秒的小声音片段连续经过傅里叶变换的过程直到结束,最终会得到hello语音一个完整的频谱图
    2
  • 声学模型
    我们将频谱图中每个小音频片段,连续的输入给声学模型中去,它将找出与当前正在说出的声音相对应的字母。
    2
  • 映射
    当跑完的整个音频(一次一个小音频片段)之后,我们将最终得到一份对照表(映射mapping),其中标明了每个音频块和其最有可能对应的字母。这是我说那句「Hello」所对应的映射的大致图案
    映射
  • 折叠删除
    我们将重复字符折叠: HHHEE_LL_LLLOOO => HE_L_LO,然后我们删除空格符: HE_L_LO becomes => HELLO

自动语音识别工具包的简介及设计架构

1

使用先进的ASR工具快速实现第一个语音识别应用

搭建
(注:内容来源于NVADA的讲座)

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@Lucia1314

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值