这个音频指纹暂时用来做同源音频聚类,判断歌曲是否是同一源的,
这里先介绍下飞利浦的方案-------A Highly Robust Audio Fingerprinting System,这个算法是在他上面的优化,
帧: 一段固定时间的音频信息,Ts;
相邻两个帧: 两个帧重叠时间域为 31/32,
步长: 一个帧与下一个帧起始时间之差,Tstep = 1/32 * Ts;
通过能量差分的关系,求得相邻音频两个帧(两帧之间的重叠区域为31/32)之间的能量关系,产生指纹,这个音频的特征值就是两帧之间的能量关系。
傅里叶变换成频率信息,把300 ---- 2000HZ 频率映射到33个频率带,计算各频率带的能量通过能量差分信息变换成二进制数。具体细节可以看论文
A Highly Robust Audio Fingerprinting System,这个方案,是把相邻帧之间的能量关系用来做为音频的特征。
大概步骤如下:
1. 提取一帧的音频信息
2. 加窗---汉宁窗
3. FFT,把振幅信息转成能量信息,
4. FFT结果取绝对值
5. 把频率在 300---2000