Task3打卡-食物声音识别，音频特征提取

最新推荐文章于 2024-11-15 10:17:44 发布

zzc-ccccc

最新推荐文章于 2024-11-15 10:17:44 发布

阅读量205

点赞数

分类专栏： DataWhale学习打卡文章标签： python

原文链接：https://tianchi.aliyun.com/competition/gameList/activeList

版权

DataWhale学习打卡专栏收录该内容

5 篇文章 0 订阅

订阅专栏

学习目标：

今天主要学习声音特征提取
MFCC特征提取知识
过零率（Zero Crossing Rate）
频谱质心（Spectral Centroid）
声谱衰减 (Spectral Roll-off）
梅尔频率倒谱系数（Mel-frequency cepstral coefficients ，MFCC）
色度频率（Chroma Frequencies）

学习内容：

第一点最重要就是导入库啦

import numpy as np
import sklearn
import librosa
import librosa.display
import matplotlib.pyplot as plt
import glob
import os

同样的，我们先用librosa读取音频文件。接着就是用matplotlib绘制声波信号

plt.figure(figsize=(14, 5))
librosa.display.waveplot(x, sr=sr)

一般情况下，过零率越大，频率近似越高。
紧接着用librosa输出过零点个数

频谱质心

谱质心描述了声音的明亮度，具有阴暗、低沉品质的声音倾向有较多低频内容，谱质心相对较低，具有明亮、欢快品质的多数集中在高频，谱质心相对较高。

zero_crossings = librosa.zero_crossings(x[n0:n1], pad=False)
print(sum(zero_crossings))

色度频率

其中整个频谱被投影到12个区间，代表音乐八度音的12个不同的半音（或色度）

librosa.display.specshow(chromagram, x_axis='time', y_axis='chroma', hop_length=hop_length, cmap='coolwarm')

在这里插入图片描述

学习时间：

2021年4 月18号

学习产出：

太复杂了好像没有什么产出

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zzc-ccccc

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深度学习论文: Task-Specific Context Decoupling for Object Detection及其PyTorch实现

mingo_敏

03-14

2192

目标检测还需要定位出图像中每个感兴趣目标所在的位置和类别信息，但是定位和分类两个子任务对特征上下文的偏好并不一致，其中，定位需要更多的边界感知特征来准确地回归边界框，而分类任务则需要更多的语义上下文信息。两者之间存在一种空间不对齐(spatial misalignment)的问题。通过实验，作者提出全连接头可能更适合分类任务，而卷积头则更适合定位任务，这是因为fc-head比conv-head具备更高的空间敏感性，具有更强的区分完整对象和部分对象的能力，但对于回归整个对象并不稳健。

macOS - kernel_task

AI + 工程

04-07

2971

原文：Mac: What is kernel_task on Activity Monitor? https://www.quora.com/Mac-What-is-kernel_task-on-Activity-Monitor kernal 是操作系统的核心。计算机启动后，他第一个启动，并控制所有的守护进程（服务）、内存管理、网络等。 kernel 启动或删除必要的进程；这些tas...

参与评论您还未登录，请先登录后发表或查看评论

零基础入门语音识别-食物声音识别Task1

weixin_57171836的博客

04-14

446

零基础入门语音识别-食物声音识别 本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。 baseline由开源学习组织Datawhale提供 https://github.com/datawhalechina/team-learning Task1 食物声音识别-Baseline-CNN 环境要求 TensorFlow的版本：2.0 + keras sklearn librosa 对CNN提取音频特征的理解. 对CNN提取音频特征的

零基础入门语音识别-食物声音识别Task3

weixin_57171836的博客

04-17

273

零基础入门语音识别-食物声音识别 音频数据特征值的提取及MFCC特征提取知识 Task3 音频特征提取介绍打卡本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。 baseline由开源学习组织Datawhale提供 https://github.com/datawhalechina/team-learning 任务介绍本次任务，要求我们在初步理解了数据集的信息后。当我们拿到这些音频数据，需要如何进行特征提取，筛选出我们需要的信息。

食物声音识别-音频数据特征提取

CalvinStarrio的博客

04-17

388

食物声音识别-音频数据特征提取 ** Datawhale开源项目Task3打卡** 今日知识点：过零率，频谱质心、声谱衰减，梅尔频率倒谱系数（MFCC），色度频率以及MFCC特征提取运用的Python第三方库：numpy, sklearn, librosa, matplotlib 每个特征在声音识别中的用途：过零率（zero crossing rate）-- 适用于高冲击性的声音代表信号符号变化的比率，即在每帧中，语音信号从正变为负或从负变为正的次数。该特征在语音识别和信息检索领域有广泛应用

零基础入门语音识别-食物声音识别Task4

weixin_57171836的博客

04-19

316

零基础入门语音识别-食物声音识别 CNN（卷积神经网络）模型的搭建与训练。 Task4 CNN模型搭建训练个人理解打卡引用文本本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。 baseline由开源学习组织Datawhale提供 https://github.com/datawhalechina/team-learning 在task4里我细化学习了CNN网络的搭建和代码实现，对CNN在baseline中的初步了解在Task1中就

零基础入门语音识别-食物声音识别Task2

weixin_57171836的博客

04-15

253

零基础入门语音识别-食物声音识别 对声音识别数据的理解 Task2 食物声音识别-赛题数据介绍分析打卡本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。 baseline由开源学习组织Datawhale提供 https://github.com/datawhalechina/team-learning 在Task2的学习里，我试着理解加载音频库与处理音频数据的基本代码。实现音频信息的有效识别我觉得离不开对傅里叶变换的理解在

零基础入门机器学习——声音识别——打卡Task1

m0_46387163的博客

04-13

998

学习目标： 1 基于CNN的分类模型：参考图片分类的形式，将不同声音的频谱做分类。 2 基于LSTM的分类模型：通过数据预处理、特征提取、划分数据集以及训练模型等步骤给声音数据做分类。学习内容： 1. 下载数据集使用阿里云的天池资源，创建Data Science Workshop Notebook。运行下列代码进行下载注释：！的意思是用终端运行环境要求： TensorFlow版本：2.0+ Keras Keras是一个高层神经网络API，Keras由纯Python编写而成并基Tenso

零基础语音识别入门——Task3打卡

weixin_44286290的博客

04-16

105

零基础语音识别入门——Task3打卡音频数据特征MFCC特征提取梅尔频谱由开源学习组织Datawhale提供 https://github.com/datawhalechina/team-learning 音频数据特征 Task 3 中介绍了许多音频特征如：过零率；频率质心；胜浦衰减；色度频谱等。以上已具体说明的四类特征中的前三个都是通过对声波信号进行一些处理，或者提取声波信号的特征。前三种方法没有对声波信号进行增维，因此，若想进一步做更为细致的分析，我认为是不够的。而第四种数据特征色度频谱将频谱投

Datawhale学习打卡-数学建模导论（下）Task1

2302_77608969的博客

07-24

1079

数学建模中的数据处理以及常见的数据模型

Datawhale夏令营-Task2打卡

2302_77608969的博客

07-16

941

Softmax函数是处理多类别分类问题时非常有用的工具，它。

【学习笔记】Task3 食物声音识别-音频数据特征提取

Jimmy吖的博客

04-17

784

参考资料 Datawhale Github官方代码 MFCC特征提取 Datawhale直播 特征提取背景在之前的Task2中，我们初步查看了数据集的信息，并通过音频的声波图和声谱图将声音可视化了。当我们拿到这些音频数据之后，接下来就需要进行特征提取（过滤掉背景噪音等不需要的信息）筛选出我们需要的信息了。接下来我们将简要介绍以下特征，并详细学习MFCC特征提取知识：过零率（Zero Crossing Rate）频谱质心（Spectral Centroid）声谱衰减 (Spectral Rol

学习记录--- LSTM 时序特征提取

热门推荐

Laiguibing521的博客

06-30

1万+

最近做项目，看了一点关于LSTM的知识，目的是想用LSTM提取时间序列的时序特征和师姐讨论，加上个人理解，认为state.h （使用tensorflow深度学习框架）为一条序列的时序特征。（时序特征维数由隐层神经元个数num_units决定） data数据格式数据说明：jobid,taskid,5条序列。比如1到6行，是第一task的5条序列比如7到14行，是第二个task的5条序列 ...

【论文阅读】【三维目标检测】Multi-Task Multi-Sensor Fusion for 3D Object Detection

麒麒哈尔的博客

09-23

6064

目录网络点云分支图像分支Point-wise FusionLoss实验部分我的思考文章 Multi-Task Multi-Sensor Fusion for 3D Object Detection 2019CVPR 该文章使用了相机和激光雷达传感器融合方法检测3D Object，使用了一个网络解决多任务，并且多个子任务是为了3D Object Detection服务的。网络网络结构图如下，主...

ks8 本地化部署 F5-TTS

陈锐的技术笔记

11-13

844

此外，F5-TTS 还创新性地引入了推理时的 Sway Sampling 策略，这一策略可以在推理阶段优先处理早期的流步骤，从而提高生成语音与输入文本的对齐效果。在 LibriSpeech-PC 数据集上，该模型的字错误率（WER）达到了2.42，并且在推理时的实时因子(RTF)为0.15，显著优于之前的扩散模型 E2TTS，后者在处理速度和鲁棒性上存在短板。传统的 TTS 模型往往需要进行复杂的持续时间建模、音素对齐和专门的文本编码，这些都增加了合成过程的复杂性。继续TSS的启动，进入pod 输入命令。

外星人入侵

weixin_60243362的博客

11-12

2447

外星人入侵项目实践

什么是Python模块化编程

大数据实战派

11-13

459

模块化编程是一种编程方法论，它将程序的功能划分为多个独立的模块，每个模块负责程序中的一部分功能。通过这种方式，程序的代码被分割成更小、更易管理的部分，每个模块都可以独立开发、调试和测试，模块之间通过接口进行交互。模块化编程是将一个复杂的程序拆分为多个独立、功能明确的小模块的编程方法。这不仅提高了代码的复用性和可维护性，还促进了团队协作开发，增强了程序的扩展性。在实际开发中，模块化编程让代码结构更加清晰，逻辑更加简洁，为程序的长久维护和扩展打下了坚实的基础。

使用`nohup`后台运行Python服务不输出日志避坑

A15216110998的专栏

11-14

286

这里的应替换为你的Python脚本名称。错误日志未输出这里使用了2>&1来将错误输出重定向到与标准输出相同的文件。代码中的print()语句未输出到日志有时候，由于Python的缓冲输出机制，print()到屏幕的内容可能不会立即显示在日志中。要解决这个问题，可以使用-u现在，print()语句应该会立即出现在日志文件中。其他注意事项如果你的脚本依赖于环境变量，确保在启动脚本之前已经设置了这些变量，或者在脚本中显式导入它们。考虑使用第三方库如logging。

Conda环境与Ubuntu环境移植详解