基于采样率，对音频信号进行分类

最新推荐文章于 2024-05-10 19:59:06 发布

MrTz

最新推荐文章于 2024-05-10 19:59:06 发布

阅读量481

点赞数

文章标签：深度学习人工智能神经网络 python 机器学习

本文链接：https://blog.csdn.net/HonlyF/article/details/108879373

版权

本文探讨如何基于采样率对音频信号进行分类，涉及音频信号的理解、特征提取和深度学习应用。通过理解时域与频域的关系，利用Python和深度学习框架TensorFlow2.3进行音频特征工程，最终实现有效的音频分类。推荐的相关资源有助于初学者入门音频处理和特征提取。

摘要由CSDN通过智能技术生成

基于采样率，对音频信号进行分类，深度学习，tensorflow2.3

@author:tz , time:2020_9_29

1. 了解音频

如果我们想给两类音频信号进行分类，该从哪里下手？各类框架对图片分类的例子有很多，网上案例一搜一大堆，但是音频这块就很不常见了。
其基本原因是音频信号不够直观，传统 信号与系统 中，对声音进行分析，大多要经历各种时域到频域的变化，诸如fft…
如果从没接触过这块的，光频域这个概念都要消化很久，再加上国内教材大多不讲人话，进一步加大了入门难度。
这里推荐一篇简单的入门文章
《信号与系统》太easy了那是因为看过了这篇奇文
如果还觉得费力可以去看一下 B站关于 傅里叶变化 的视频

2.对音频进行特征提取

光知道这些，你对音频进行处理后，得到是一大堆数据，
这里面包含有效信息吗？网络结构可以识别的信息？
肯定是包含的，但是！就这样一脑子把数据全丢进去真的好吗？
举个简单的例子：
avatar
现在，有一个时钟的图片，要求得到显示的时间？

原始数据：像素网格，你当然可以把图片像素作为数据，丢入网络训练。

比较好的特征：指针的坐标，我们如果以时钟中心为原点，很快就能求到各指针的位置，这样一来，我们就能更快更好的求到时间。

更进一步：指针的角度，这样，我们只要知道时针的角度，就能求解了。

这就是 特征工程 意义。
深度学习就是要从数据中学习表示。与问题相关度越高的数据必然是更好的选择，他能大幅度提高准确率，提升模型的速度。

回到我们音频处理，首先，要对我们要处理的数据集有个基本了解，不妨试试求解一下要处理的音频数据的各种特征，看看音频哪种属性(频率，带宽，分贝…) 在我们要处理的数据中是具有辨识度的。

这里情况开始不同，由于各个人的数据库不相同，你可以使用很多特征。我这里只介绍最基础的——采样点。

3.代码

新手学习代码最好的方法就是找到大神的代码一顿魔改
我找到的：

https://keras.io/examples/audio/speaker_recognition_using_cnn/#setup

由于本地是个二分类单标签问题，加上数据量较小。
结合实际情况，魔改加删减后：

import tensorflow as tf
import os
import numpy as np
import keras
from pathlib import Path

DATASET_AUDIO_PATH = 'your dataset path'
SHUFFLE_SEED = 6

class_names = os.listdir(DATASET_AUDIO_PATH)
print("Our class names: {}".format(</