食物语音识别（音频数据特征提取）

最新推荐文章于 2021-04-22 23:48:05 发布

罐罐罐子

最新推荐文章于 2021-04-22 23:48:05 发布

阅读量572

点赞数

本文链接：https://blog.csdn.net/qq_33934600/article/details/115708543

版权

本文探讨了音频数据的特征提取，包括过零率、频谱质心、声谱衰减和色度频率等。重点介绍了MFCC特征提取的过程，模拟人耳感知声音的梅尔频谱和梅尔倒谱的概念，以及它们在语音识别中的应用。

摘要由CSDN通过智能技术生成

在上文音频数据探究的基础上，探究音频数据的特征提取。

音频数据特征提取

常见的音频特征提取
MFCC特征提取
梅尔频谱和梅尔倒谱

常见的音频特征提取

过零率

过零率（zero crossing rate）是一个信号符号变化的比率，即，在每帧中，语音信号从正变为负或从负变为正的次数。这个特征已在语音识别和音乐信息检索领域得到广泛使用，通常对类似金属、摇滚等高冲击性的声音的具有更高的价值。

一般情况下，过零率越大，频率近似越高。

x, sr = librosa.load('./train_sample/aloe/24EJ22XBZ5.wav')
#绘制声波信号
plt.figure(figsize=(14, 5))
librosa.display.waveplot(x, sr=sr)
# 放大
n0 = 9000
n1 = 9100
plt.figure(figsize=(14, 5))
plt.plot(x[n0:n1])
plt.grid()

在这里插入图片描述数了一下15个过零点，我们开源用librosa库进行验证，输出过零点个数：

# 计算过零率

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

罐罐罐子

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

语音识别-特征提取：概述

u013250861的博客

06-16

2028

语音识别的第一步就是语音特征提取，语音信号是在人体中肺. 喉. 声道等器官构成的语音产生系统中产生的，它是一个高度不平稳的信号，它的幅度谱和功率谱也随着时间不停的变化，但是在足够短的时间内，其频谱特征相当平稳，因此在进行语音分析时，我们多采用分帧的方式进行短时分析，查看多篇文章中，使用帧长为25ms，帧移为10ms的方式进行分帧，并且计算出每帧内的功率谱进行其他的操作。功率谱在一些特征提取技术中得到应用，比如MFCC. Fbank，查询多篇文章，了解了几种被广泛应用个的特征提取技术，他们的特性不同也就决定了

食物语音识别（音频数据探究）

罐罐罐子的博客

04-14

459

在上文baseline的基础上，探究音频数据。食物语音识别（音频数据探究）音频处理库LibrosaIPython.display.Audio查看音频数据查看音频特征查看声谱图音频处理库 Librosa 通常用于分析音频信号，但更倾向于音乐，它包括用于构建MIR（音乐信息检索）系统的nuts 和 bolts。 IPython.display.Audio 该模块能使得音频直接在jupyter笔记本中播放。查看音频数据 # 加载音频处理库 import os import matplotlib.pyplot

参与评论您还未登录，请先登录后发表或查看评论

食物语音识别baseline（CNN）

罐罐罐子的博客

04-14

497

本次赛题是Datawhale与天池联合发起零基础入门语音识别-食物声音识别挑战赛。食物语音识别baseline（CNN）语音识别特征提取MFCC数据集1 下载和解压数据集2 加载库函数3 特征提取以及数据集的建立建立类别标签字典提取梅尔频谱特征获取特征和标签独热编码把数据集划分为训练集和测试集4 建立模型搭建CNN网络训练模型5 预测测试集6 结果 语音识别特征提取 MFCC 梅尔倒谱系数（Mel-scaleFrequency Cepstral Coefficients，简称MFCC）。 MFCC通常有以

语音识别-食物声音识别

qq_33588413的博客

04-13

596

声音识别和自然语言处理类似，声音和文本都是一种序列化的数据。自然语言处理要处理文本，首先要将文本表示成为计算机能够识别的数据，比如one-hot编码，词袋模型，或者训练成词向量嵌入到空间内。在声音利与内，声音可以通过librosa库进行特征处理，例如提取melspectrogram，mfcc特征。进而可以成为计算机可以识别，处理的数据。本次做食物声音识别，共有20种咀嚼食物的声音，如咀嚼肉饼，卷心菜等。baseline采用的是CNN，最后一层接全连接层，激活函数采用softmax，...

食物语音识别Task1

flyingfox023的专栏

04-13

236

一、本地运行环境：系统：MacOS Catalina Python版本：3.8.5 Anaconda版本：4.9.2 Tensorflow版本：2.4.1 1.CNN jupyter notebook 打开baselin之CNN版。一开始就给了我一个下马威，

食物声音识别：CNN

IOT_victor的博客

04-13

1100

1、数据集来自Eating Sound Collection，数据集中包含20种不同食物的咀嚼声音，赛题任务是给这些声音数据建模，准确分类。 https://tianchi.aliyun.com/competition/entrance/531887/information

用matlab实现对语音信号的特征进行特征提取.rar_matlab_matlab语音识别_信号识别_语音特征_语音识别

07-15

在语音识别领域，特征提取是至关重要的一步，它能够将原始语音信号转化为具有代表性的、可用于后续模型训练的参数。本资源"用matlab实现对语音信号的特征进行特征提取.rar"提供了一个基于MATLAB的语音特征提取示例，...

语音识别课程——特征提取作业

07-08

在本文中，我们将深入探讨与"语音识别课程——特征提取作业"相关的知识，特别是关于音频文件的Fbank特征和MFCC（Mel Frequency Cepstral Coefficients）特征的提取，以及如何通过Python来实现这一过程。我们将逐一...

【学习笔记】Task3 食物声音识别-音频数据特征提取

Jimmy吖的博客

04-17

782

参考资料 Datawhale Github官方代码 MFCC特征提取 Datawhale直播 特征提取背景在之前的Task2中，我们初步查看了数据集的信息，并通过音频的声波图和声谱图将声音可视化了。当我们拿到这些音频数据之后，接下来就需要进行特征提取（过滤掉背景噪音等不需要的信息）筛选出我们需要的信息了。接下来我们将简要介绍以下特征，并详细学习MFCC特征提取知识：过零率（Zero Crossing Rate）频谱质心（Spectral Centroid）声谱衰减 (Spectral Rol

语音识别：食物声音辨物 cnn方法和xgboost 两种方法源码数据集教程

11-25

语音识别入门教程

-:学习语音识别——以食物声音为例

04-14

- 学习语音识别——以食物声音为例

音频处理数据：特征提取的结果，来自雨林声音数据集的数据

02-13

雨林声音数据集（已处理）在完成的特征提取结果

食物声音识别Task6

flyingfox023的专栏

04-22

191

01 语音识别基础与发展 1.1 语音识别基础 语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,...,On}，寻找最可能的词序列W={W1,...,Wm}，即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为： 1.2 语音识别的发展传统机器学习，基于统计的GMM-HMM，其中HMM （隐马尔可夫模型，Hidden Markov Model）

食物声音识别笔记总结

submarineas的博客

04-13

734

引言赛题以语音识别为背景，要求选手使用提供的语音数据训练模型并完成语音分类的任务。数据集来自Eating Sound Collection，数据集中包含20种不同食物的咀嚼声音，赛题任务是给这些声音数据建模，准确分类。作为零基础入门语音识别的新人赛，本次任务不涉及复杂的声音模型、语言模型，希望大家通过两种baseline的学习能体验到语音识别的乐趣。数据介绍 train文件夹：完整的训练集； train_sample文件夹：部分训练集； test文件夹：测试集；赛题包含的类别： aloe ic

零基础入门语音识别-食物声音识别[Task 1]

violethao的博客

04-13

1222

Task1 食物声音识别之Baseline学习作为零基础入门语音识别的新人赛，本次任务不涉及复杂的声音模型、语言模型，希望大家通过两种baseline的学习能体验到语音识别的乐趣。任务说明：我们提供了两种Baseline供大家学习，基本要求是大家跟着提示将两条Baseline跑通。代码：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.750a204aZZZHfu&postId=198902 1 基于C

零基础入门语音识别-食物声音识别[Task 2]

violethao的博客

04-15

490

Task2 食物声音识别之赛题数据介绍与分析 1 赛题数据探索声音识别，那么声音有什么特点呢？声音是以波的形式传播，声波的特性由频率，振幅和相位决定其音高，音量和音色。丰富的声波在自然中的叠加创造了人耳可以听见以及听不见的声音，给生活带来了乐趣抑或烦恼。赛题是分类不同食物的咀嚼声音并做标签，可以推而广之作为音乐分类，音乐推荐以及声音识别等多种用途。 2 音频相关知识点学习为了了解我们要处理的音频数据，我们需要用到python的一些音频库对音频进行采样以及回放。在这个赛题中主要应用的是python中的l

零基础入门语音识别-食物声音识别[Task 5]

violethao的博客

04-21

363

Task5 食物声音识别之模型改进与优化 Task1 食物声音识别之Baseline学习 Task2 食物声音识别之赛题数据介绍与分析 Task3 食物声音识别之音频数据特征提取 Task4 食物声音识别之深度学习根据上述4个Task的工作，我们已经完成了对于Baseline方案的整体分析，从数据准备，到特征提取，再到深度学习建模，也在Task1里得到了通过Baseline预测测试集的情况，得到了一个比较低的预测率。这说明模型有待改进，那么这节就是要说明在做完上述工作以后，如何进行优化，这可能是我们工作和

零基础入门语音识别-食物声音识别[Task 4]

violethao的博客

04-19

311

Task4 食物声音识别之深度学习 1 前情回顾 Task1 Task2 Task3 2 建立深度学习模型 2.1 学习框架 2.2 CNN网络 3 模型训练与测试 3.1 模型训练 3.2 预测测试集

卷积神经网络在语音识别中的特征提取研究

“基于卷积神经网络的语音特征提取算法，主要探讨了在语音识别领域，如何利用卷积神经网络（CNN）进行有效的特征提取，以提高识别系统的性能。该研究结合了复杂的GMM-HMM模型，以应对非特定人语音差异和噪声干扰，...