多次获取音频时间不一致_【计算机系统应用】（第八十五期）基于压缩感知和音频指纹的固定音频检索方法...

最新推荐文章于 2022-04-24 20:28:51 发布

weixin_39898150

最新推荐文章于 2022-04-24 20:28:51 发布

阅读量321

点赞数

文章标签：多次获取音频时间不一致

本文链接：https://blog.csdn.net/weixin_39898150/article/details/111331759

版权

本文提出了一种基于压缩感知和音频指纹降维的固定音频检索方法，旨在解决音频检索中样本音频特征库数据量大、检索速率慢的问题。通过对音频进行稀疏化处理、压缩感知、音频指纹提取和降维，实现了存储量减少和检索速率的提高，同时保持了良好的检索准确性。实验表明，这种方法在保证检索效果的同时，显著降低了数据库的存储需求和提高了检索速度。

摘要由CSDN通过智能技术生成

点击上方“ 蓝字”，关注我们吧！

摘　要:

针对现有音频检索中样本音频特征库数据量较大且检索速率慢问题, 本文提出一种基于压缩感知和音频指纹降维的固定音频检索方法. 在音频检索的训练阶段, 首先, 对样本音频信号进行稀疏化处理, 并通过压缩感知算法对稀疏化后的音频数据进行压缩; 其次, 提取压缩信号的音频指纹; 再次, 引入音频指纹离散基尼系数通过计算音频指纹各维度的离散基尼系数对指纹实施降维, 最终得到检索特征库. 在音频检索阶段用和训练阶段相同的算法提取待检音频的特征与音频特征库数据匹配得出检索结论. 实验结果表明, 所提音频检索方法在确保较好的检索准确率的基础上, 大幅度减小了样本音频数据库的存储量, 提高了音频的检索速率.

随着数字化信息的快速发展, 各种以音频为载体的作品也越来越多, 海量的音频信息丰富了人们的生活同时也给人们带来了麻烦, 如何准确、快速的从数据库中获取自己想要的信息, 已经成为信息时代人们迫切需要同时也是音频检索领域的重要研究问题之一. 目前, 音频检索主要分为两大类: 一类是基于特征相似度匹配的固定音频检索, 其基本原理是对给定的待查询音频片段, 在样本音频库中检索与其相同或同源的片段[1,2] ;另一类是基于内容的音频检索技术[3] , 该技术主要研究如何利用音频的幅度、频谱等物理特征, 响度、音高、音色等听觉特征, 词字、旋律等语义特征实现音频信息检索.

相对来说, 基于内容的音频检索技术较难, 该类方法需依据生物语言特征和声韵等信息去识别音频的内容, 算法比较复杂主要用于人机交互领域. 而基于特征相似度匹配的固定音频检索相对较为简单, 算法复杂度较低, 它不需要识别出待检音频的内容只需要根据其音频特征与样本音频特征库数据进行相似度比较来确定待检音频是否为目标音频, 此音频检索技术适用范围较广, 常用于音乐搜索、音频版权保护以及广告监测等领域.

固定音频检索技术目前主要在匹配方法上进行了研究, 有基于特征直方图的方法、基于距离的方法[4,5] 及上述两种方法的结合[6] . 且这两种方法所用的音频特征都是传统音频特征, 基于特征直方图的方法简单、快速, 但是检索准确率不高, 基于距离的方法其计算复杂度较高. 这两种算法的不同之处在于检索阶段采取的特征相似度[7] 判别方式不同, 但是在检索之前, 都需要预先对样本模板和待检音频进行特征提取和矢量量化, 而正是这些预处理耗费时间, 并在很大程度上决定检索的准确度[8] . 另外, 在检索过程中样本音频特征数据库的存储量是决定检索速率的关键因素之一. 而音频指纹具有数据量较小、抗噪性能较高、特征参数提取相对简单等优点深受该领域学者青睐, 其中 Philips 算法[9] 是其中比较经典的一种, 一经提出便受到广泛关注. Philips 算法在各种信号畸变情况下具有良好性能, 并且速度方面有很大的优势, 但是当信号有较快线性速度改变时性能不够理想. 近年来, 也有学者提出利用人工智能识别音频片段的指纹检索技术[10] . 将小波包系数的奇异值熵以及样本熵相融合作为音频片段信号的特征参数, 提取出音频指纹, 但是, 此方法需要神经网络训练, 算法复杂度较高. 也有学者利用采样子指纹和计数匹配进行音频检索[11] , 该方法是提取一段音频的多个子指纹并标记, 在指纹匹配时进行子指纹计数并匹配, 该方法检索准确率较好, 由于需要多次计算子指纹使得该方法的检索速率不太理想. 另外, 有国内学者提出基于压缩感知梅尔倒谱的检索[ 1 2 ] 算法 (Compressed Sensing Mel Frequency Cepstrum Coefficient, CS-MFCC) 和国外学者提出[13] 基于子指纹掩码 (Sub-fingerprint Masking,SM) 的音频指纹检索算法具有很好的检索效果.

针对实际中固定音频检索样本音频特征数据库存储量大的问题, 本文提出一种基于压缩感知和音频指纹降维的音频检索方法, 该方法在构建样本音频特征库时利用压缩感知算法先对样本音频进行压缩处理再提取音频指纹特征, 然后, 对提取的音频指纹引入离散基尼系数进行指纹特征降维. 由于, 该方法对样本音频采取先压缩再进行特征降维, 这就使得在同量的样本音频下该方法构建的样本音频特征库的数据量较小, 算法减少了计算量, 提高了筛选速度和音频检索的鲁棒性.

1 基于压缩感知的音频特征库构建

1.1 声音预处理

由于音频信号具有短时平稳性, 且音频数据的首末段以及中间段有不含信息的音频段, 为了更高效的压缩样本音频, 需要对样本音频进行预处理, 分为带通滤波、预加重、分帧、加窗和静音帧判别.

1.2 音频信号的压缩处理

考虑到音频信号数据较大, 直接提取特征会使得构建的特征库数据量大, 变相增加了检索工作量. 为此, 本文在特征提取前对音频信号进行压缩感知, 来解决特征库数据量大的问题. 压缩感知算法是由 Donoho 等[14] 在 2006 年提出的概念, 是对信号压缩的同时进行采样, 不同于传统的 Nyquist 采样定理, 在压缩感知的理论框架下, 采样速率不再取决于信号的带宽, 而是取决于信息在信号中的结构和内容[15] . 当信号为稀疏信号时, 压缩感知可以以远小于采样定理要求的采样数, 通过重构算法重构原始信号[16] .

为验证音频信号在频域的稀疏性, 本文选用爱荷华大学音乐乐器样本库 (University of Iowa Music Instrument Samples, Iowa-MIS)[17] 中的数据作为样本进行分析, 统计了 6 类音频信号 (采样率为 16 kHz) 的帧能量保留比与时频成分保留个数间关系[18] , 如图 1 所示. 其中, 纵坐标表示各帧保留的时频点个数 (按照频率成分幅度由大到小的顺序保留时频点); 横坐标表示保留相应数量的时频成分时, 所保留的时频成分能量占该帧信号总能量的百分比. 时频变换选用 1 024 点的离散余弦变换 (Discrete Cosine Transform, DCT), 帧能量保留比从 98% 到 80% 均匀变化时, 统计分析相应的时频保留个数.

从图 1 中可以看出, 6 类音频信号的时频保留数随着帧能量保留比的均匀下降以非线性方式下降. 可见, 音频信号在频域的能量呈非均匀分布, 大部分能量集中在少数时频系数中. 以钢琴为例, 在帧能量保留比为 90% 时, 时频保留数为 256 个为总数 2048 的 1/8, 同样, 贝斯在帧能量保留比为 92% 时, 时频保留数为 256, 说明关键的 256 个时频系数可以包含一帧音频 92% 的信息能量. 因此可知, 音频信号在频域呈现明显的能量集中性, 即其在频域具有稀疏特性. 基于此, 本文将压缩感知理论引入音频检索领域并对其理论进行改进.

此时, 完成音频信号稀疏化处理, 得到满足压缩条件的时域稀疏信号 . 要实现对稀疏音频信号的压缩, 需要通过观测矩阵将稀疏信号投影到低维空间. 为保证音频检索过程中观测矩阵在训练和识别阶段一致,选择一个稳定的观测矩阵至关重要. 考虑到音频信号具有短时平稳性, 即, 相邻若干样点变化平缓, 故本文选行阶梯矩阵[19] 为观测矩阵. 通过此观测矩阵将稀疏音频信号相邻的几个采样点合成一个采样值, 这样既压缩了音频信号又保持了音频信号的短时平稳性, 便于后续二次分帧处理. 将上述 Q-稀疏化后的第 n 帧信号通过行阶梯观 X¯ 测矩阵Ф投影得到 M 维的观测序列信号:

1.3 稀疏音频指纹特征提取

在音频的众多特征中, 音频指纹是近年来最受欢迎的一种, 音频指纹是指可以代表一段音频重要声学特征的基于内容的紧致数字签名, 其主要目的是用少量的数字信息代表大量音频数据信息. 它相对于传统的音频特征具有 3 个优点, 因为音频指纹数据量较小, 可以减小特征数据库的存储量从而提高音频特征匹配速度; 指纹的抗噪性能较高, 可以减小音频识别过程中的干扰因素; 音频指纹特征提取流程相对简单, 因此可以减少特征提取的时间增加音频减速速率.

在众多的音频指纹中, Philips 音频指纹模型因具有较高的鲁棒性且算法较为简单, 本文以此指纹模型为基础进行音频指纹提取. 首先, 对上述压缩后的音频数据 Y 进行二次分帧; 其次, 对分帧后信号进行离散傅里叶变换并对频域信号进行频谱子带划分, 从频谱中选取 M 个非重叠的频带, 频带之间是等对数间隔的. 再次, 计算每帧音频的各个子带能量, 分别求其上述选取的 M 个非重叠频带的能量. 最后, 根据子带能量的判别生成每帧音频的子指纹, 上述每帧所求的 M 个子带能量比特差分判别公式如下:

其中, E(n, m) 表示音频第 n 帧的第 m 子带能量, 表示第 n 帧的第 m 子带和 m+1 子带的能量差, F(n, m) 为对应的二进制比特音频指纹信息. 最终, 每帧音频最后生成一个 M–1 维的二进制子指纹信息.

1.4 音频指纹降维

对于一段音频来说, 所含的音频指纹信息是由多个二进制子指纹信息构成, 其指纹信息数据量仍然很大, 在实际应用中, 希望进一步降低音频指纹维数从而有效减少指纹数据量. 为此, 本文提出基于离散基尼系数计算的音频指纹降维方法. 求取音频指纹的每一维度离散基尼系数, 各维度指纹的离散基尼系数反映了音频指纹该维度数据的离散程度, 即音频指纹该维度数据的差异性大小. 音频指纹某维的离散基尼系数越大, 不同音频在该维的差异就越大, 说明该维数据的区分性越好, 反之区分性差. 本文通过保留音频指纹中区分性较好维的信息, 去掉区分性较差维的信息, 从而实现降低指纹维数的目的.

音频指纹各维度的离散基尼系数计算过程如下: ⇀ W j ⇀ W j (1) 求取音频指纹的离散洛伦兹曲线, 离散洛伦兹曲线是求离散基尼系数的关键曲线, 是由累积指纹数据占比矢量的各个元素构成, j 表示音频指纹的维度序号, 取值范围 j=1,2,…, M–1 求取累积指纹数据占比矢量的计算过程如下:

将音频指纹库中的各类音频指纹按帧处理, 音频指纹每 50 帧指纹数据为一组共分成 L 组, 构建第 j 维累积指纹数据矢量:

占比矢量各元素构成的曲线为离散洛伦兹曲线, 如图 2 所示的曲线.

(2) 以上述所求的离散洛伦兹曲线为分界线, 可得音频指纹第 j 维度的基尼系数公式如下:

如图 2 所示, 其中, 为坐标对角线段 OA 与离散洛伦兹曲线围成的闭合面积, 点 O 的坐标为 (0,0) 点 A 的坐标 (1,1), 为坐标线段 OB、BA 与离散洛伦兹曲线围成的闭合面积, 点 B 的坐标为 (1, 0), 为音频指纹第 j 维度的基尼系数.

2 音频特征检索

本文采用比特误码率作为匹配相似度判定, 具体过程如下:

(1) 选取待测音频经上述预处理、稀疏化处理以及压缩处理得到待测观测序列信号 . Y¯ Fd(n,r) Fd(n,r)

(2) 将上述压缩处理后的待测观测序列信号经指纹特征提取、指纹特征降维得到待测音频指纹 , 其中, 表示待测音频信号序列第 n 帧音频指纹的第 r 位.

(3) 将得到的待测音频指纹与样本音频指纹库中

3 实验结果与分析

3.1 性能评价指标

为了验证算法的有效性, 本文选用音频检索中常用的查全率与查准率作为性能评价标准; 查全率与查准率的定义如下: 查全率=从检索源中检出的正确目标数/应检索出的目标数查准率=从检索源中检出的正确目标数/实际检索出的目标数

3.2 实验结果分析

本文实验主要在不同信噪比的数据集进行检索, 以验证本文算法的检索性能. 所用数据采样率为 8 kHz, 特征提取处理帧长为 0.256 s, 帧移为 0.032 s, 对于压缩后的音频数据每帧分为 33 个子带, 即 M=33. 数据库 1: 包含 5000 个音频文件, 每个音频文件长 3 s~ 5 min, 主要为课题所在实验室的采集语音数据及从互联网采集的音频数据, 总大小约为 12.3 GB, 总时长为 230 h, 音频文件为 8 kHz 采样 16 bit 编码的 PCM 格式. 数据库 2: 针对数据库 1, 添加白噪声形成信噪比为 40 dB 的数据集. 数据库 3: 针对数据库 1, 添加白噪声形成信噪比为 30 dB 的数据集. 数据库 4: 针对数据库 1, 添加白噪声形成信噪比为 20 dB 的数据集. 数据库 5: 针对数据库 1, 添加白噪声形成信噪比为 10 dB 的数据集. 数据库 6: 从数据库 1 中任意选取 1000 个音频文件, 从其中随机位置截取一段时长为 3 s 的音频数据作为检索片段.

3.2.1 音频指纹降维程度分析

为确定音频指纹降维能量, 本文从音频数据库 1 中选取语音类数据和歌曲类数据, 求取所选数据音频指纹各维度的离散基尼系数, 统计音频指纹各维度的离散基尼系数. 图 3(a)、图 3(b) 分别给出了 250 段与 500 段数据的 32 维音频指纹各维度的离散基尼系数的均值.

图 3 语音与歌曲数据音频指纹各维度的离散基尼系数

从图 3 可以看出测试的数据量不同时 (250 段与 500 段), 得到的音频指纹各维度的离散基尼系数的均值不相同, 但是最小离散基尼系数所对应的维数是相同的. 即, 在两个不同体量的测试数据中, 得到的结果都是音频指纹在第 2、14、15、25 维的离散基尼系数相对其他维数都比较低, 说明音频指纹在这几维的信息区分度相对较低. 根据 1.4 节分析, 降维音频指纹将保留指纹离散基尼系数大的维度信息, 舍去指纹离散基尼系数小的维度信息. 因此, 可以去掉音频信号的这几维指纹信息, 从而达到指纹降维目的. 以此类推, 若想进一步降维可以通过图 3 看出指纹离散基尼系数在第 1、3、24、 26 维也相对较低, 可以尝试去除这几维的指纹信息.

3.2.2 样本压缩比与指纹降维对检索性能的影响

利用样本音频库中的各类音频, 依次选取音频数据作为待查询音频, 然后对样本特征数据库进行检索. (1) 样本不同压缩程度对检索性能的影响本实验选取数据库 6 中的数据集为待查询音频, 在数据库 1 进行检索. 比较不同样本压缩比下构建的特征库的检索效果. 此实验中, 构建特征数据库时不进行指纹特征降维操作. 样本压缩比 N/H 分别设置为 1、2、3、4、5 时, 音频检索性能如表 1 所示.

表 1 表明, 当样本压缩比 N/H 为 2 和 3 时, 检索效果相对较好. 考虑到样本压缩比为 3 时, 既能多压缩样本数据又能取得较好的检索效果, 因此, 样本压缩比取 3 时最为合适.

4 结束语

本文针对现有音频检索中样本音频特征库数据量较大且检索速率慢问题, 提出一种基于压缩感知和音频指纹降维的固定音频检索方法, 该方法利用压缩感知算法对样本音频进行先压缩再提取音频指纹特征随后引入离散基尼系数对音频指纹进行降维, 使得样本音频特征库的数据量减小. 该方法的特征匹配算法简单, 而且匹配速率较快, 实验表明, 该方法在选取合适的样本音频压缩比与音频指纹维数时具有较好的检索性能.

推荐书籍

《创业密码2》是《创业密码》的延伸和完善。本书对创业的各个环节进行了更细致的分析和探讨，包括如何把握趋势，成为一个真正的创业者；如何构建理想的商业模式，创业初期营销怎么做；如何找到可靠的合伙人，创业初期的团队如何建设；如何使用创业工具；初创企业融资的要素、消费升级和人工智能领域创业的关键点；早期项目如何选择孵化空间，等等。创业者把握好创业的这些环节能够有稳定的心态，自信地面对人生的关键选择，成功创业。本书适合初创企业的创业者和创业企业的管理者阅读，同时对寻找投资项目的投资者也有一定的帮助。

本文转载《计算机系统应用》期刊 2020年第29卷第8期