ASR入门笔记

飞扬々岁月

已于 2022-07-04 09:58:00 修改

阅读量975

点赞数 1

分类专栏： ASR 文章标签：算法语音识别

于 2022-06-17 17:04:50 首次发布

本文链接：https://blog.csdn.net/weixin_42264992/article/details/125319325

版权

本文介绍了ASR（语音识别）的基本概念，包括音频参数、输入音频处理，如MFCC特征提取，以及输出token的不同类型。重点讨论了主流模型，如seq2seq、CTC、RNN Transducer和Transformer系列。还涵盖了Streaming在ASR中的应用，端点检测技术如VAD、EOQ和SD，并列举了常用的ASR工具。

摘要由CSDN通过智能技术生成

https://www.bilibili.com/video/BV1fZ4y1g7UP?spm_id_from=333.337.search-card.all.click&vd_source=dc1df04b86e76cd60bdec55685c2a1c9

一些参数说明

https://www.kancloud.cn/anychat-doc/anychat_handbook_video/526462

音频、音频，故名声音的频率，指人耳可以听到的声音频率在20HZ~20kHz之间的声波，称为音频，那频率就有采用率和大小，我们大自然的声音都是物理现象，称为模拟音频信号。为了方便数字化存储和传输，我们采用数字音频信号处理技术，音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高。声音的还原越真实越自然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。

sample rate，取样频率：指每秒钟取得声音样本的次数。采样频率越高,声音的质量也就越好,声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很有限,太高的频率并不能分辨出来。

sample size，采样值大小：它是用来衡量声音波动变化的一个参数，也可以说是声卡的分辨率。它的数值越大，分辨率也就越高，所发出声音的能力越强。
每个采样数据记录的是振幅, 采样精度取决于采样位数的大小:1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;
4 字节(