基于内容-基于音频特征的音频检索

最新推荐文章于 2023-06-28 00:02:14 发布

audio_mqiu

最新推荐文章于 2023-06-28 00:02:14 发布

阅读量6k

点赞数

分类专栏：音频编解码 C/C++编程文章标签：音频指纹 audio fingerprint 音频检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiumingjian/article/details/52754170

版权

本文介绍了基于内容的音频检索算法，通过提取音频指纹，构建hash table进行检索。算法包括鲁棒兴趣点提取、特征构建和检索排序三个步骤，具有抗噪性和高检索准确率。

摘要由CSDN通过智能技术生成

如需转载请注明出处！

一. 算法可用性

1. 能够由片段识别主体

2. 检索准确率高

3. 抗噪性强

二. 算法基本原理

离线阶段，对音频数据库中所有音频样本提取指纹，构建hash table；在线阶段，通过对待查询音频提取相同规则指纹并构建hash，在hash table中查找指纹匹配，并通过一定的规则进行匹配度量。良好的指纹特征包含以下几个特性：(1) 时间局部性，即每个指纹特征由短时信号构成，最大可能避免时间扰动。(2) 转换不变性，即特征与位置无关，具有可复现性。 (3) 鲁棒性，即提取的特征最大程度抵抗噪声及各种音频损伤性修改，如编解码等。(4) 较高信息熵，避免信息孤立特征的低抗扰动性与冗余造成的检索效率问题。

采用频域极大值构建landmark的方式创建指纹特征来创建指纹索引hash table以及执行匹配检索，验证算法的有效性和性能。算法主要包含以下几个模块：

1. 鲁棒兴趣点提取

将频域极值点（能量高于其邻域点）确定为兴趣点，因为极值点具有较强的抗干扰性。兴趣点的选取要遵循一定的密度准则，保证统计上符合均匀分布特性。

音频信号的时频谱如Fig.1A所示，通过一定的极值选取准则，最终得到的兴趣点图谱如图Fig.1B所示。需要注意的是，在查找频域极值点时，以能量幅度信息作为判断依据。在确定了兴趣点后&

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。