1、声音的三个主要的主观属性(即音量、音调、音色)。音色(Timbre)是指不同的声音的频率表现在波形方面总是有与众不同的特性,音色的不同取决于不同的泛音。频率的高低决定声音的音调,振幅的大小决定声音的响度,音色区分不同的发声材料物体。
2、Chirp信号:线性调频信号,是指频率随时间而线性改变(增加或减少)的信号。线性调频的瞬时频率f(t)呈线性变化:f(t)=f0+kt,其中f0表示时间等于零时的频率,k表示频率改变的速率,当k>0时,频率递增,k<0则递减。主要应用:常见的包括声纳、雷达、多普勒效应效应。 为了能够测量长距离又保留时间的分辨率,雷达需要短时间的派冲波但是又要持续的发射信号,线性调频可以同时保留连续信号和脉冲的特信,因此被应用在雷达和声纳探测上。
3、传统阵列处理的信号主要是远场窄带信号,如声呐和雷达等。
4、语音信号主要为宽带信号。现实中的声信号是未经过调制的宽带信号。(求正式出处,文章??)
5、麦克风阵列 (MA) 接收到的语音信号多为宽带信号,每对麦克风接收到的信号之间时间差与相位差并没有直接对应关系;MA接收到的语音信号多为不平稳信号,短时平稳时间内无法采集足够的数据;MA接收到的语音信号受室内环境影响,除了其他干扰信号与环境噪声外,还存在混响噪声。
6、麦克风的灵敏度、方向性、固有噪声等指标是衡量麦克风性能的重要指标。【eg, 最近用的InvenSense ICS-40720是一款超低噪声,差分模拟输出的MEMS麦克风。全向,频率范围75hz-20khz,信噪比70dB,灵敏度-38dB ±2dB @ 94dB SPL】
7、声源定位算法中,麦克风接收信号的信噪比和信混比是影响定位性能的重要因素,这二者越高,则表明接收信号质量越高,相应的定位精度就越高。
8、作为很有效的阵列信号增强算法,谱减法则属于不需要构建模型的非参数方法。谱减法最核心的部分就是对语音进行傅里叶变换,所以在对语音进行增强的时候一定要确认傅里叶变换的准确性和稳定性,傅里叶变换的完成就可以使最后谱减法的结果准确。
9、MUSIC算法的基本原理是对阵列接收数据的自相关矩阵进行特征分解,获取噪声子空间与信号子空间,利用其正交性,构造空间谱(伪谱),通过谱峰搜索,估计非相关平面波的DOA。
10、人并不能区分所有频率分量,只有两个频率分量相差一定带宽时(1000hz以下,带宽恒定100hz;1000hz以上,带宽与中心频率成指数关系),人类才能区分,否则人就会把两个音调听成一个,这称为屏蔽效应,带宽称为临界带宽。
11、中心频率:声音高低主要与频率有关,由于可听声的声频太宽(从20Hz到20000Hz),为便于进行频率分析,将其分为若干段,称为频程。每频程的上限与下限频率的几何平均值称为该频程的中心频率。
12、采样频率为Fs,信号频率F,采样点数为N。由Nyquist采样定理知道,Fs > F。N点FFT之后结果就是一个为N点的复数。每一个点就对应着一个频率点。这个点的模值,就是该频率值下的幅度特性。第一个点表示直流分量(即0Hz)。频率分辨率 = Fs/N。如果要提高频率分辨力,则必须增加采样点数,也即采样时间。频率分辨率和采样时间是倒数关系。
13、麦克风阵列信号的采样频率是Fs=64000Hz,傅立叶变换点数是1024,那么对每个子间隔进行J点的离散傅立叶变换,就得到了宽带内J个不相重叠的子带。所以得到了宽带内1024个不重叠的子带。每个窄带的频带宽度是64000/1024=62.5Hz;因为语音信号频率主要集中在300~3000Hz之间,而且某点n所表示的频率为:Fn=(n-1)*Fs/N,所以我们选取的测试数据主要集中在5~49个频点之间,超过或者小于这个范围测试的话一般会出现测试偏差,或者出现旁瓣,影响主瓣峰值位置的判断。
14、相关系数度量指的是两个不同事件彼此之间的相互影响程度;而自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象的讲就是度量自己过去的行为对自己现在的影响。
自相关(英语:Autocorrelation),也叫序列相关,是一个信号于其自身在不同时间点的互相关。非正式地来说,它就是两次观察之间的相似度对它们之间的时间差的函数。它是找出重复模式(如被噪声掩盖的周期信号),或识别隐含在信号谐波频率中消失的基频的数学工具。它常用于信号处理中,用来分析函数或一系列值,如时域信号。
15、时间序列必须是平稳的才可以做后续分析,差分和log都是为了使时间序列平稳。
一个时间序列,如果均值和方差没有系统变化或周期性变化(均值无变化:没有明显趋势,方差无变化:波动比较稳定),就称之为平稳的。