如需转载请注明出处!
一. 算法可用性
1. 能够由片段识别主体
2. 检索准确率高
3. 抗噪性强
二. 算法基本原理
离线阶段,对音频数据库中所有音频样本提取指纹,构建hash table;在线阶段,通过对待查询音频提取相同规则指纹并构建hash,在hash table中查找指纹匹配,并通过一定的规则进行匹配度量。良好的指纹特征包含以下几个特性:(1) 时间局部性,即每个指纹特征由短时信号构成,最大可能避免时间扰动。(2) 转换不变性,即特征与位置无关,具有可复现性。 (3) 鲁棒性,即提取的特征最大程度抵抗噪声及各种音频损伤性修改,如编解码等。(4) 较高信息熵,避免信息孤立特征的低抗扰动性与冗余造成的检索效率问题。
采用频域极大值构建landmark的方式创建指纹特征来创建指纹索引hash table以及执行匹配检索,验证算法的有效性和性能。算法主要包含以下几个模块:
1. 鲁棒兴趣点提取
将频域极值点(能量高于其邻域点)确定为兴趣点,因为极值点具有较强的抗干扰性。兴趣点的选取要遵循一定的密度准则,保证统计上符合均匀分布特性。
音频信号的时频谱如Fig.1A所示,通过一定的极值选取准则,最终得到的兴趣点图谱如图Fig.1B所示。需要注意的是,在查找频域极值点时,以能量幅度信息作为判断依据。在确定了兴趣点后&