java wav特征提取,2019-01-16 音乐特征提取

音乐特征的提取感觉比文字和图片略麻烦,因为音乐存在时域、频域的概念,相当于比文字、图片多一个维度。好在目前已有了Librosa开源Python模块,通常用于分析音频信号,但更倾向于音乐。它包括用于构建MIR(音乐信息检索)系统的nuts 和 bolts。

示例和教程:https://librosa.github.io/librosa/。

Librosa 安装:pip install librosa

Librosa 频谱表示:

stft(y[, n_fft, hop_length, win_length, …]) 短时傅里叶变化 (STFT)

istft(stft_matrix[, hop_length, win_length, …]) 逆短时傅里叶变化 (ISTFT).

ifgram(y[, sr, n_fft, hop_length, …]) 计算瞬时频率(按照采样率的比例)来获得复杂的频谱的时间倒数

cqt(y[, sr, hop_length, fmin, n_bins, …]) 计算音频信号的常量Q变换

hybrid_cqt(y[, sr, hop_length, fmin, …]) 计算音频信号的混合常量Q变换

pseudo_cqt(y[, sr, hop_length, fmin, …]) 计算伪常量Q变换

fmt(y[, t_min, n_fmt, kind, beta, …]) The fast Mellin transform (FMT) [R5] of a uniformly sampled signal y.

interp_harmonics(x, freqs, h_range[, kind, …]) 计算均匀采样下的快速梅林变换 (FMT)

salience(S, freqs, h_range[, weights, …]) 谐波特征函数

phase_vocoder(D, rate[, hop_length]) 相位编码器

magphase(D) 将一个复制的频谱图D分离成它的幅值S和相位D分量,D=S*P

通过librosa进行若干音乐特征提取的代码如下:

import urllib.request

import json

from pydub import AudioSegment

import wave

import io

import matplotlib.pyplot as plt

import librosa.display

import numpy as np

取部分音频文件即可,按时间段截取

def get_minute_part_wav(main_wav_path, start_time, end_time, part_wav_path):

start_time = (int(start_time.split(':')[0])60+int(start_time.split(':')[1]))1000

end_time = (int(end_time.split(':')[0])60+int(end_time.split(':')[1]))1000

sound = AudioSegment.from_mp3(main_wav_path)

word = sound[start_time:end_time]

word.export(part_wav_path, format="wav")

MP3格式转为wav格式

sound = AudioSegment.from_mp3("d:/music_dev/606149060.mp3")

sound.export("d:/music_dev/606149060.wav",format ='wav')

with wave.open("d:/music_dev/606149060.wav", "rb") as f:

f = wave.open("d:/music_dev/606149060.wav")

print(f.getparams())

get_minute_part_wav("d:/music_dev/606149060.wav", "0:60", "1:30", "d:/music_dev/606149060_130.wav")

x#显示简单波形 ,

sr = librosa.load("d:/music_dev/606149060_130.wav", sr=None)

plt.figure(figsize=(14, 5))

librosa.display.waveplot(x, sr=sr)

plt.savefig("d:/music_dev/606149060_130.png")

显示色度

hop_length = 512

chromagram = librosa.feature.chroma_stft(x, sr=sr, hop_length=hop_length)

plt.figure(figsize=(15, 5))

librosa.display.specshow(chromagram, x_axis='time', y_axis='chroma', hop_length=hop_length, cmap='coolwarm')

plt.savefig("d:/music_dev/606149060_130_1.png")

显示过零率

plt.figure(figsize=(14, 5))

librosa.display.waveplot(x, sr=sr)

n0 = 9000

n1 = 9100

plt.figure(figsize=(14, 5))

plt.plot(x[n0:n1])

plt.grid()

plt.savefig("d:/music_dev/606149060_130_2.png")

zero_crossings = librosa.zero_crossings(x[n0:n1], pad=False)

print(sum(zero_crossings))

显示CQT变换后结果

CQT = librosa.amplitude_to_db(librosa.cqt(x, sr), ref=np.max)

plt.subplot(4, 2, 3)

librosa.display.specshow(CQT, y_axis='cqt_note')

plt.colorbar(format='%+2.0f dB')

plt.savefig("d:/music_dev/606149060_130_cqt.png")

显示MFCC提取

mfcc = librosa.feature.mfcc(y=x, sr=sr)

librosa.display.specshow(mfcc, sr=sr, x_axis='time')

plt.savefig("d:/music_dev/606149060_130_mfcc.png")

上述生成的几个图片:

b6f91487b1c8

606149060_130_1.png

b6f91487b1c8

606149060_130_2.png

b6f91487b1c8

606149060_130_cqt.png

b6f91487b1c8

606149060_130_mfcc.png

还有一些其它特征,如光谱质心,光谱衰减等,一旦提取了特征,我们就可以使用现有的分类算法将歌曲分类为不同的类型。可以直接使用频谱图像进行分类,也可以提取特征并在其上使用分类模型等。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值