语音信号块处理和自相关函数

the only KIrsTEN

于 2022-10-23 14:00:00 发布

阅读量617

点赞数 1

分类专栏：语音和文本处理(Python) 文章标签：语音识别人工智能深度学习开发语言自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kirsten111111/article/details/127469965

版权

语音和文本处理(Python) 专栏收录该内容

25 篇文章 2 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了语音信号处理中的块处理技术，包括帧大小、帧移位的概念，并讨论了在语音识别中如何利用帧处理进行短期能量和过零率的计算。此外，还探讨了自相关函数在语音/非语音检测和音高检测中的作用，以及协方差和相关性的概念。

摘要由CSDN通过智能技术生成

语音信号块处理和自相关函数

块处理Block Processing
• 通过麦克风捕捉并通过数字化后模数转换器，输入的语音信号变成一系列量化样本
• 数字信号处理通常在称为“块”或“帧”的固定长度样本序列上执行
– 例如在 Pure Data 中，默认的“块大小”是 64 个样本（即默认 44.1 kHz 采样率下的 1.45 毫秒帧）
• 由于语音的准平稳特性，帧尺寸是在一个帧中有足够的数据来完成所需的测量;具有足够小的数据量以保证平稳性假设成立
• 还必须确保有足够的捕获非平稳属性的帧数

为了适应所有这些限制，通常在语音处理中使用重叠帧
– ‘帧大小frame size’ (N)：每帧的样本数
– “帧移位frame shift”（R）：开始之间的样本数连续帧
• 帧大小通常以时间表示:NT 秒（其中 T 是采样周期）
• 帧偏移通常表示为“帧速率” fr = 1/RT 每秒帧数 (fps)

在演讲中，通常有帧长 (NT) =30 毫秒,帧速率（fr) = 100 帧/秒
• 例如:

sample rate (fs) = 10 kHz (10,000 samples/sec

了解本专栏

超级会员免费看

the only KIrsTEN

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语音信号块处理和自相关函数

相比之下，清音信号不需要使用声带。例如，音素 /s/ 和 /z/ 或 /f/ 和 /v/ 之间的唯一区别是声带的振动。– 例如在 Pure Data 中，默认的“块大小”是 64 个样本（即默认 44.1 kHz 采样率下的 1.45 毫秒帧）假设“广义平稳性”（WSS）协方差仅取决于 𝜅 = 𝑘2 - 𝑘1 之间的差异考虑样本指数，即𝑘2 = 𝑘1 + k。• 由于语音的准平稳特性，帧尺寸是在一个帧中有足够的数据来完成所需的测量;离散时间信号之间x[k] 相同的信号 x[k]的“自协方差”
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。