多次获取音频时间不一致_【计算机系统应用】(第八十五期)基于压缩感知和音频指纹的固定音频检索方法...

本文提出了一种基于压缩感知和音频指纹降维的固定音频检索方法,旨在解决音频检索中样本音频特征库数据量大、检索速率慢的问题。通过对音频进行稀疏化处理、压缩感知、音频指纹提取和降维,实现了存储量减少和检索速率的提高,同时保持了良好的检索准确性。实验表明,这种方法在保证检索效果的同时,显著降低了数据库的存储需求和提高了检索速度。
摘要由CSDN通过智能技术生成
点击上方“ 蓝字”,关注我们吧! 78fbd1d513ca2d33eb1bc61538444f10.png 3b6c05d1162cb2602ee47b1cdd7d8d82.gif

摘 要: 

针对现有音频检索中样本音频特征库数据量较大且检索速率慢问题, 本文提出一种基于压缩感知和音频指 纹降维的固定音频检索方法. 在音频检索的训练阶段, 首先, 对样本音频信号进行稀疏化处理, 并通过压缩感知算法 对稀疏化后的音频数据进行压缩; 其次, 提取压缩信号的音频指纹; 再次, 引入音频指纹离散基尼系数通过计算音频 指纹各维度的离散基尼系数对指纹实施降维, 最终得到检索特征库. 在音频检索阶段用和训练阶段相同的算法提取 待检音频的特征与音频特征库数据匹配得出检索结论. 实验结果表明, 所提音频检索方法在确保较好的检索准确率 的基础上, 大幅度减小了样本音频数据库的存储量, 提高了音频的检索速率.

5bf7722e8b6d5d2fad21f360f0cacd84.png

随着数字化信息的快速发展, 各种以音频为载体 的作品也越来越多, 海量的音频信息丰富了人们的生活 同时也给人们带来了麻烦, 如何准确、快速的从数据库 中获取自己想要的信息, 已经成为信息时代人们迫切需 要同时也是音频检索领域的重要研究问题之一. 目前, 音频检索主要分为两大类: 一类是基于特征相似度匹 配的固定音频检索, 其基本原理是对给定的待查询音频 片段, 在样本音频库中检索与其相同或同源的片段[1,2] ;另一类是基于内容的音频检索技术[3] , 该技术主要研究 如何利用音频的幅度、频谱等物理特征, 响度、音高、 音色等听觉特征, 词字、旋律等语义特征实现音频信息 检索.

相对来说, 基于内容的音频检索技术较难, 该类方 法需依据生物语言特征和声韵等信息去识别音频的内 容, 算法比较复杂主要用于人机交互领域. 而基于特征 相似度匹配的固定音频检索相对较为简单, 算法复杂 度较低, 它不需要识别出待检音频的内容只需要根据 其音频特征与样本音频特征库数据进行相似度比较来 确定待检音频是否为目标音频, 此音频检索技术适用 范围较广, 常用于音乐搜索、音频版权保护以及广告 监测等领域. 

固定音频检索技术目前主要在匹配方法上进行了 研究, 有基于特征直方图的方法、基于距离的方法[4,5] 及上述两种方法的结合[6] . 且这两种方法所用的音频特 征都是传统音频特征, 基于特征直方图的方法简单、快 速, 但是检索准确率不高, 基于距离的方法其计算复杂 度较高. 这两种算法的不同之处在于检索阶段采取的特 征相似度[7] 判别方式不同, 但是在检索之前, 都需要预 先对样本模板和待检音频进行特征提取和矢量量化, 而 正是这些预处理耗费时间, 并在很大程度上决定检索的 准确度[8] . 另外, 在检索过程中样本音频特征数据库的 存储量是决定检索速率的关键因素之一. 而音频指纹具 有数据量较小、抗噪性能较高、特征参数提取相对简 单等优点深受该领域学者青睐, 其中 Philips 算法[9] 是 其中比较经典的一种, 一经提出便受到广泛关注. Philips 算法在各种信号畸变情况下具有良好性能, 并且速度方 面有很大的优势, 但是当信号有较快线性速度改变时性 能不够理想. 近年来, 也有学者提出利用人工智能识别 音频片段的指纹检索技术[10] . 将小波包系数的奇异值熵 以及样本熵相融合作为音频片段信号的特征参数, 提取 出音频指纹, 但是, 此方法需要神经网络训练, 算法复杂 度较高. 也有学者利用采样子指纹和计数匹配进行音频 检索[11] , 该方法是提取一段音频的多个子指纹并标记, 在指纹匹配时进行子指纹计数并匹配, 该方法检索准 确率较好, 由于需要多次计算子指纹使得该方法的检索 速率不太理想. 另外, 有国内学者提出基于压缩感知梅 尔倒谱的检索[ 1 2 ] 算法 (Compressed Sensing Mel Frequency Cepstrum Coefficient, CS-MFCC) 和国外学 者提出[13] 基于子指纹掩码 (Sub-fingerprint Masking,SM) 的音频指纹检索算法具有很好的检索效果. 

针对实际中固定音频检索样本音频特征数据库存 储量大的问题, 本文提出一种基于压缩感知和音频指 纹降维的音频检索方法, 该方法在构建样本音频特征 库时利用压缩感知算法先对样本音频进行压缩处理再 提取音频指纹特征, 然后, 对提取的音频指纹引入离散 基尼系数进行指纹特征降维. 由于, 该方法对样本音频 采取先压缩再进行特征降维, 这就使得在同量的样本 音频下该方法构建的样本音频特征库的数据量较小, 算法减少了计算量, 提高了筛选速度和音频检索的鲁 棒性.

1   基于压缩感知的音频特征库构建 

1.1 声音预处理 

由于音频信号具有短时平稳性, 且音频数据的首末 段以及中间段有不含信息的音频段, 为了更高效的压缩 样本音频, 需要对样本音频进行预处理, 分为带通滤 波、预加重、分帧、加窗和静音帧判别. 

1.2 音频信号的压缩处理 

考虑到音频信号数据较大, 直接提取特征会使得 构建的特征库数据量大, 变相增加了检索工作量. 为此, 本文在特征提取前对音频信号进行压缩感知, 来解决 特征库数据量大的问题. 压缩感知算法是由 Donoho 等[14] 在 2006 年提出的概念, 是对信号压缩的同时进行采样, 不同于传统的 Nyquist 采样定理, 在压缩感知的理论框 架下, 采样速率不再取决于信号的带宽, 而是取决于信 息在信号中的结构和内容[15] . 当信号为稀疏信号时, 压 缩感知可以以远小于采样定理要求的采样数, 通过重 构算法重构原始信号[16] . 

为验证音频信号在频域的稀疏性, 本文选用爱荷 华大学音乐乐器样本库 (University of Iowa Music Instrument Samples, Iowa-MIS)[17] 中的数据作为样本进行分析, 统 计了 6 类音频信号 (采样率为 16 kHz) 的帧能量保留 比与时频成分保留个数间关系[18] , 如图 1 所示. 其中, 纵坐标表示各帧保留的时频点个数 (按照频率成分幅 度由大到小的顺序保留时频点); 横坐标表示保留相应 数量的时频成分时, 所保留的时频成分能量占该帧信 号总能量的百分比. 时频变换选用 1 024 点的离散余弦 变换 (Discrete Cosine Transform, DCT), 帧能量保留比 从 98% 到 80% 均匀变化时, 统计分析相应的时频保留 个数.

7d3a5b81ba54b3eeee9cef24eb921b26.png

从图 1 中可以看出, 6 类音频信号的时频保留数随 着帧能量保留比的均匀下降以非线性方式下降. 可见, 音频信号在频域的能量呈非均匀分布, 大部分能量集中 在少数时频系数中. 以钢琴为例, 在帧能量保留比为 90% 时, 时频保留数为 256 个为总数 2048 的 1/8, 同样, 贝斯在帧能量保留比为 92% 时, 时频保留数为 256, 说 明关键的 256 个时频系数可以包含一帧音频 92% 的信 息能量. 因此可知, 音频信号在频域呈现明显的能量集 中性, 即其在频域具有稀疏特性. 基于此, 本文将压缩感 知理论引入音频检索领域并对其理论进行改进.

d4ee647ed799212a9d1133dc7c6e806a.png

此时, 完成音频信号稀疏化处理, 得到满足压缩条 件的时域稀疏信号 . 要实现对稀疏音频信号 的压缩, 需要通过观测矩阵将稀疏信号投影到低维空间. 为保 证音频检索过程中观测矩阵在训练和识别阶段一致,选择一个稳定的观测矩阵至关重要. 考虑到音频信号 具有短时平稳性, 即, 相邻若干样点变化平缓, 故本文 选行阶梯矩阵[19] 为观测矩阵. 通过此观测矩阵将稀疏 音频信号相邻的几个采样点合成一个采样值, 这样既 压缩了音频信号又保持了音频信号的短时平稳性, 便 于后续二次分帧处理. 将上述 Q-稀疏化后的第 n 帧信号 通过行阶梯观 X¯ 测矩阵Ф投影得到 M 维的观测序列信号:

8b0186feb8def5841be9d408fd3c025f.png

1.3 稀疏音频指纹特征提取 

在音频的众多特征中, 音频指纹是近年来最受欢 迎的一种, 音频指纹是指可以代表一段音频重要声学 特征的基于内容的紧致数字签名, 其主要目的是用少 量的数字信息代表大量音频数据信息. 它相对于传统 的音频特征具有 3 个优点, 因为音频指纹数据量较小, 可以减小特征数据库的存储量从而提高音频特征匹配 速度; 指纹的抗噪性能较高, 可以减小音频识别过程中 的干扰因素; 音频指纹特征提取流程相对简单, 因此可 以减少特征提取的时间增加音频减速速率. 

在众多的音频指纹中, Philips 音频指纹模型因具 有较高的鲁棒性且算法较为简单, 本文以此指纹模型 为基础进行音频指纹提取. 首先, 对上述压缩后的音频 数据 Y 进行二次分帧; 其次, 对分帧后信号进行离散傅 里叶变换并对频域信号进行频谱子带划分, 从频谱中 选取 M 个非重叠的频带, 频带之间是等对数间隔的. 再次, 计算每帧音频的各个子带能量, 分别求其上述选 取的 M 个非重叠频带的能量. 最后, 根据子带能量的 判别生成每帧音频的子指纹, 上述每帧所求的 M 个子 带能量比特差分判别公式如下:

c8e4d7b3c6cedc34758966658ea0be9f.png

其中, E(n, m) 表示音频第 n 帧的第 m 子带能量,  表示第 n 帧的第 m 子带和 m+1 子 带的能量差, F(n, m) 为对应的二进制比特音频指纹信 息. 最终, 每帧音频最后生成一个 M–1 维的二进制子 指纹信息.

1.4 音频指纹降维 

对于一段音频来说, 所含的音频指纹信息是由多 个二进制子指纹信息构成, 其指纹信息数据量仍然很 大, 在实际应用中, 希望进一步降低音频指纹维数从而 有效减少指纹数据量. 为此, 本文提出基于离散基尼系 数计算的音频指纹降维方法. 求取音频指纹的每一维 度离散基尼系数, 各维度指纹的离散基尼系数反映了 音频指纹该维度数据的离散程度, 即音频指纹该维度 数据的差异性大小. 音频指纹某维的离散基尼系数越 大, 不同音频在该维的差异就越大, 说明该维数据的区 分性越好, 反之区分性差. 本文通过保留音频指纹中区 分性较好维的信息, 去掉区分性较差维的信息, 从而实 现降低指纹维数的目的.

音频指纹各维度的离散基尼系数计算过程如下: ⇀ W j ⇀ W j (1) 求取音频指纹的离散洛伦兹曲线, 离散洛伦兹 曲线是求离散基尼系数的关键曲线, 是由累积指纹数 据占比矢量 的各个元素构成, j 表示音频指纹的维 度序号, 取值范围 j=1,2,…, M–1 求取累积指纹数据占 比矢量 的计算过程如下: 

将音频指纹库中的各类音频指纹按帧处理, 音频 指纹每 50 帧指纹数据为一组共分成 L 组, 构建第 j 维 累积指纹数据矢量:

c6647ca3065ed4f28b09ff129af87399.png

占比矢量 各元素构成的曲线为离散洛伦兹曲 线, 如图 2 所示的曲线. 

(2) 以上述所求的离散洛伦兹曲线为分界线, 可得 音频指纹第 j 维度的基尼系数公式如下:

711dce18548f150515d563e05d61779b.png

如图 2 所示, 其中,  为坐标对角线段 OA 与离散 洛伦兹曲线围成的闭合面积, 点 O 的坐标为 (0,0) 点 A 的坐标 (1,1),  为坐标线段 OB、BA 与离散洛伦兹 曲线围成的闭合面积, 点 B 的坐标为 (1, 0),  为音频 指纹第 j 维度的基尼系数.

43d88e3be3d43a8a5bae4e944dd08f69.png

2   音频特征检索 

本文采用比特误码率作为匹配相似度判定, 具体 过程如下: 

(1) 选取待测音频经上述预处理、稀疏化处理以 及压缩处理得到待测观测序列信号 . Y¯ Fd(n,r) Fd(n,r)

(2) 将上述压缩处理后的待测观测序列信号 经指 纹特征提取、指纹特征降维得到待测音频指纹 , 其中,  表示待测音频信号序列第 n 帧音频指纹 的第 r 位.

(3) 将得到的待测音频指纹与样本音频指纹库中

658f7c8bcce01fd1f8c4674872d34765.png

3   实验结果与分析 

3.1 性能评价指标 

为了验证算法的有效性, 本文选用音频检索中常 用的查全率与查准率作为性能评价标准; 查全率与查 准率的定义如下: 查全率=从检索源中检出的正确目标数/应检索出 的目标数 查准率=从检索源中检出的正确目标数/实际检索 出的目标数 

3.2 实验结果分析 

本文实验主要在不同信噪比的数据集进行检索, 以验证本文算法的检索性能. 所用数据采样率为 8 kHz, 特征提取处理帧长为 0.256 s, 帧移为 0.032 s, 对于压缩 后的音频数据每帧分为 33 个子带, 即 M=33. 数据库 1: 包含 5000 个音频文件, 每个音频文件长 3 s~ 5 min, 主要为课题所在实验室的采集语音数据及从互 联网采集的音频数据, 总大小约为 12.3 GB, 总时长为 230 h, 音频文件为 8 kHz 采样 16 bit 编码的 PCM 格式. 数据库 2: 针对数据库 1, 添加白噪声形成信噪比 为 40 dB 的数据集. 数据库 3: 针对数据库 1, 添加白噪声形成信噪比 为 30 dB 的数据集. 数据库 4: 针对数据库 1, 添加白噪声形成信噪比 为 20 dB 的数据集. 数据库 5: 针对数据库 1, 添加白噪声形成信噪比 为 10 dB 的数据集. 数据库 6: 从数据库 1 中任意选取 1000 个音频文件, 从其中随机位置截取一段时长为 3 s 的音频数据作 为检索片段. 

3.2.1    音频指纹降维程度分析 

为确定音频指纹降维能量, 本文从音频数据库 1 中 选取语音类数据和歌曲类数据, 求取所选数据音频指纹 各维度的离散基尼系数, 统计音频指纹各维度的离散基 尼系数. 图 3(a)、图 3(b) 分别给出了 250 段与 500 段 数据的 32 维音频指纹各维度的离散基尼系数的均值.

b4787aa5e205836bc4458002b28a5f53.png

图 3    语音与歌曲数据音频指纹各维度的离散基尼系数

从图 3 可以看出测试的数据量不同时 (250 段与 500 段), 得到的音频指纹各维度的离散基尼系数的均值 不相同, 但是最小离散基尼系数所对应的维数是相同 的. 即, 在两个不同体量的测试数据中, 得到的结果都是 音频指纹在第 2、14、15、25 维的离散基尼系数相对 其他维数都比较低, 说明音频指纹在这几维的信息区分 度相对较低. 根据 1.4 节分析, 降维音频指纹将保留指 纹离散基尼系数大的维度信息, 舍去指纹离散基尼系数 小的维度信息. 因此, 可以去掉音频信号的这几维指纹信息, 从而达到指纹降维目的. 以此类推, 若想进一步降 维可以通过图 3 看出指纹离散基尼系数在第 1、3、24、 26 维也相对较低, 可以尝试去除这几维的指纹信息. 

3.2.2    样本压缩比与指纹降维对检索性能的影响 

利用样本音频库中的各类音频, 依次选取音频数 据作为待查询音频, 然后对样本特征数据库进行检索. (1) 样本不同压缩程度对检索性能的影响 本实验选取数据库 6 中的数据集为待查询音频, 在数据库 1 进行检索. 比较不同样本压缩比下构建的 特征库的检索效果. 此实验中, 构建特征数据库时不进 行指纹特征降维操作. 样本压缩比 N/H 分别设置为 1、2、3、4、5 时, 音频检索性能如表 1 所示.

60696228c7bddc796d5f4b5e60c17379.png

表 1 表明, 当样本压缩比 N/H 为 2 和 3 时, 检索效 果相对较好. 考虑到样本压缩比为 3 时, 既能多压缩样 本数据又能取得较好的检索效果, 因此, 样本压缩比取 3 时最为合适.

4   结束语 

本文针对现有音频检索中样本音频特征库数据量 较大且检索速率慢问题, 提出一种基于压缩感知和音 频指纹降维的固定音频检索方法, 该方法利用压缩感 知算法对样本音频进行先压缩再提取音频指纹特征随 后引入离散基尼系数对音频指纹进行降维, 使得样本 音频特征库的数据量减小. 该方法的特征匹配算法简 单, 而且匹配速率较快, 实验表明, 该方法在选取合适 的样本音频压缩比与音频指纹维数时具有较好的检索 性能.

推荐书籍

68053d47edb7b276815c8c16cd052190.png

《创业密码2》是《创业密码》的延伸和完善。本书对创业的各个环节进行了更细致的分析和探讨,包括如何把握趋势,成为一个真正的创业者;如何构建理想的商业模式,创业初期营销怎么做;如何找到可靠的合伙人,创业初期的团队如何建设;如何使用创业工具;初创企业融资的要素、消费升级和人工智能领域创业的关键点;早期项目如何选择孵化空间,等等。创业者把握好创业的这些环节能够有稳定的心态,自信地面对人生的关键选择,成功创业。本书适合初创企业的创业者和创业企业的管理者阅读,同时对寻找投资项目的投资者也有一定的帮助。

本文转载《计算机系统应用》期刊 2020年第29卷第8期

fe51c4be4972cefe551e5414b199ffed.png

关注我们公众号,还可以获得PS AI等工具包哦~

7b9505d745a913997cceba8073b7ae9b.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值