基于内容-基于音频特征的音频检索

本文介绍了基于内容的音频检索算法,通过提取音频指纹,构建hash table进行检索。算法包括鲁棒兴趣点提取、特征构建和检索排序三个步骤,具有抗噪性和高检索准确率。
摘要由CSDN通过智能技术生成


如需转载请注明出处!


一. 算法可用性

1. 能够由片段识别主体

2. 检索准确率高

3. 抗噪性强

 

二. 算法基本原理

    离线阶段,对音频数据库中所有音频样本提取指纹,构建hash table;在线阶段,通过对待查询音频提取相同规则指纹并构建hash,在hash table中查找指纹匹配,并通过一定的规则进行匹配度量。良好的指纹特征包含以下几个特性:(1) 时间局部性,即每个指纹特征由短时信号构成,最大可能避免时间扰动。(2) 转换不变性,即特征与位置无关,具有可复现性。 (3) 鲁棒性,即提取的特征最大程度抵抗噪声及各种音频损伤性修改,如编解码等。(4) 较高信息熵,避免信息孤立特征的低抗扰动性与冗余造成的检索效率问题。

    采用频域极大值构建landmark的方式创建指纹特征来创建指纹索引hash table以及执行匹配检索,验证算法的有效性和性能。算法主要包含以下几个模块:

1. 鲁棒兴趣点提取

    将频域极值点(能量高于其邻域点)确定为兴趣点,因为极值点具有较强的抗干扰性。兴趣点的选取要遵循一定的密度准则,保证统计上符合均匀分布特性。    

    音频信号的时频谱如Fig.1A所示,通过一定的极值选取准则,最终得到的兴趣点图谱如图Fig.1B所示。需要注意的是,在查找频域极值点时,以能量幅度信息作为判断依据。在确定了兴趣点后&

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值