音乐指纹识别（一）：音乐波形

最新推荐文章于 2024-04-30 23:23:11 发布

go2coding

最新推荐文章于 2024-04-30 23:23:11 发布

阅读量991

点赞数

分类专栏：音乐指纹识别文章标签：音乐指纹识别

本文链接：https://blog.csdn.net/weixin_40425640/article/details/124055165

版权

音乐指纹识别专栏收录该内容

4 篇文章

订阅专栏

本文介绍了音乐识别技术的基本原理，特别是通过听取音乐片段来确定歌曲名称的功能。首先，文章提到早期该功能在Shazam应用中出现，然后解释了计算机如何将音乐数字化，以44100Hz的采样率处理wav文件，存储为双声道格式。通过绘制wav文件的波形图来直观展示数据。虽然示例中使用了wav格式，但指出大部分音乐以mp3格式存在，并预告了接下来会讨论mp3的处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现在大部分的手机音乐客户端中如，网易音乐，qq音乐中都有一个功能，可以通过听取一段音乐来识别这是哪一首歌曲。最早开始有这个功能是在Shazam中看见的，现在关于如何识别音乐也有较多的资料，这里通过一些简要的分析来说明听音识别歌曲是如何实现的。我们需要对计算机中的声音进行研究，获取一种能够代表这首歌曲的唯一标识，这就是我们通常说的音乐指纹。

在把音乐进行数字化后，以最原始的wav为例，计算机是使用一串数字来代表音乐的，通常来说，我们以一定的频率（44100Hz）对声音进行采样，存入文件时，以两个频道的格式进行存取。两个频道代表着左右声道。

为了更加直观，我们把wav的数据直接画出来。

这里用到了读取wav数据的库，wave 如果还没有安装 wave 可以使用命令进行安装：

pip install wave

一下是绘制一个wav文件的代码：

import wave as we
import numpy as np
import matplotlib.pyplot as plt
from scipy.fftpack import fft,ifft
import matplotlib.mlab as mlab



def wavread(path):
    wavfile =  we.open(path,"rb")
    params = wavfile.getparams()
    framesra,frameswav= params[2],params[3]
    datawav = wavfile.readframes(frameswav)
    wavfile.close()
    datause = np.fromstring(datawav,dtype = np.short)
    datause.shape = -1,2
    datause = datause.T
    time = np.arange(0, frameswav) * (1.0/framesra)
    return datause,time

def main():
    path = 'night.wav'
    wavdata,wavtime = wavread(path)
    plt.title("Night.wav's Frames")
    plt.subplot(211)
    plt.plot(wavtime, wavdata[0],color = 'green')
    plt.subplot(212)
    plt.plot(wavtime, wavdata[1])


    plt.show()
    
main()

两个声道的声音绘制成图片：

在这里插入图片描述