语音信号块处理和自相关函数
块处理Block Processing
• 通过麦克风捕捉并通过数字化后模数转换器,输入的语音信号变成一系列量化样本
• 数字信号处理通常在称为“块”或“帧”的固定长度样本序列上执行
– 例如 在 Pure Data 中,默认的“块大小”是 64 个样本(即默认 44.1 kHz 采样率下的 1.45 毫秒帧)
• 由于语音的准平稳特性,帧尺寸是在一个帧中有足够的数据来完成所需的测量;具有足够小的数据量以保证平稳性假设成立
• 还必须确保有足够的捕获非平稳属性的帧数
为了适应所有这些限制,通常在语音处理中使用重叠帧
– ‘帧大小frame size’ (N):每帧的样本数
– “帧移位frame shift”(R):开始之间的样本数连续帧
• 帧大小通常以时间表示:NT 秒(其中 T 是采样周期)
• 帧偏移通常表示为“帧速率” fr = 1/RT 每秒帧数 (fps)
在演讲中,通常有帧长 (NT) =30 毫秒,帧速率(fr) = 100 帧/秒
• 例如:
sample rate (fs) = 10 kHz (10,000 samples/sec