java wav特征提取,2019-01-16 音乐特征提取

我的小可乐

于 2021-03-11 10:39:53 发布

阅读量488

点赞数

文章标签： java wav特征提取

音乐特征的提取感觉比文字和图片略麻烦，因为音乐存在时域、频域的概念，相当于比文字、图片多一个维度。好在目前已有了Librosa开源Python模块，通常用于分析音频信号，但更倾向于音乐。它包括用于构建MIR(音乐信息检索)系统的nuts 和 bolts。

示例和教程：https://librosa.github.io/librosa/。

Librosa 安装：pip install librosa

Librosa 频谱表示：

stft(y[, n_fft, hop_length, win_length, …]) 短时傅里叶变化 (STFT)

istft(stft_matrix[, hop_length, win_length, …]) 逆短时傅里叶变化 (ISTFT).

ifgram(y[, sr, n_fft, hop_length, …]) 计算瞬时频率(按照采样率的比例)来获得复杂的频谱的时间倒数

cqt(y[, sr, hop_length, fmin, n_bins, …]) 计算音频信号的常量Q变换

hybrid_cqt(y[, sr, hop_length, fmin, …]) 计算音频信号的混合常量Q变换

pseudo_cqt(y[, sr, hop_length, fmin, …]) 计算伪常量Q变换

fmt(y[, t_min, n_fmt, kind, beta, …]) The fast Mellin transform (FMT) [R5] of a uniformly sampled signal y.

interp_harmonics(x, freqs, h_range[, kind, …]) 计算均匀采样下的快速梅林变换 (FMT)

salience(S, freqs, h_range[, weights, …]) 谐波特征函数

phase_vocoder(D, rate[, hop_length]) 相位编码器

magphase(D) 将一个复制的频谱图D分离成它的幅值S和相位D分量，D=S*P

通过librosa进行若干音乐特征提取的代码如下：

import urllib.request

import json

from pydub import AudioSegment

import wave

import io

import matplotlib.pyplot as plt

import librosa.display

import numpy as np

取部分音频文件即可，按时间段截取

def get_minute_part_wav(main_wav_path, start_time, end_time, part_wav_path):

start_time = (int(start_time.split(':')[0])60+int(start_time.split(':')[1]))1000

end_time = (int(end_time.split(':')[0])60+int(end_time.split(':')[1]))1000

sound = AudioSegment.from_mp3(main_wav_path)

word = sound[start_time:end_time]

word.export(part_wav_path, format="wav")

MP3格式转为wav格式

sound = AudioSegment.from_mp3("d:/music_dev/606149060.mp3")

sound.export("d:/music_dev/606149060.wav",format ='wav')

with wave.open("d:/music_dev/606149060.wav", "rb") as f:

f = wave.open("d:/music_dev/606149060.wav")

print(f.getparams())

get_minute_part_wav("d:/music_dev/606149060.wav", "0:60", "1:30", "d:/music_dev/606149060_130.wav")

x#显示简单波形 ,

sr = librosa.load("d:/music_dev/606149060_130.wav", sr=None)

plt.figure(figsize=(14, 5))

librosa.display.waveplot(x, sr=sr)

plt.savefig("d:/music_dev/606149060_130.png")

显示色度

hop_length = 512

chromagram = librosa.feature.chroma_stft(x, sr=sr, hop_length=hop_length)

plt.figure(figsize=(15, 5))

librosa.display.specshow(chromagram, x_axis='time', y_axis='chroma', hop_length=hop_length, cmap='coolwarm')

plt.savefig("d:/music_dev/606149060_130_1.png")

显示过零率

plt.figure(figsize=(14, 5))

librosa.display.waveplot(x, sr=sr)

n0 = 9000

n1 = 9100

plt.figure(figsize=(14, 5))

plt.plot(x[n0:n1])

plt.grid()

plt.savefig("d:/music_dev/606149060_130_2.png")

zero_crossings = librosa.zero_crossings(x[n0:n1], pad=False)

print(sum(zero_crossings))

显示CQT变换后结果

CQT = librosa.amplitude_to_db(librosa.cqt(x, sr), ref=np.max)

plt.subplot(4, 2, 3)

librosa.display.specshow(CQT, y_axis='cqt_note')

plt.colorbar(format='%+2.0f dB')

plt.savefig("d:/music_dev/606149060_130_cqt.png")

显示MFCC提取

mfcc = librosa.feature.mfcc(y=x, sr=sr)

librosa.display.specshow(mfcc, sr=sr, x_axis='time')

plt.savefig("d:/music_dev/606149060_130_mfcc.png")

上述生成的几个图片：

b6f91487b1c8

606149060_130_1.png

b6f91487b1c8

606149060_130_2.png

b6f91487b1c8

606149060_130_cqt.png

b6f91487b1c8

606149060_130_mfcc.png

还有一些其它特征，如光谱质心，光谱衰减等，一旦提取了特征，我们就可以使用现有的分类算法将歌曲分类为不同的类型。可以直接使用频谱图像进行分类，也可以提取特征并在其上使用分类模型等。

我的小可乐

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java wav特征提取,2019-01-16 音乐特征提取

音乐特征的提取感觉比文字和图片略麻烦，因为音乐存在时域、频域的概念，相当于比文字、图片多一个维度。好在目前已有了Librosa开源Python模块，通常用于分析音频信号，但更倾向于音乐。它包括用于构建MIR(音乐信息检索)系统的nuts 和 bolts。示例和教程：https://librosa.github.io/librosa/。Librosa 安装：pip install librosaLi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。