零基础入门语音识别之赛题介绍

本文介绍了声音的基础知识,包括声音的产生和傅里叶变换原理。接着,详细讲解了一个关于食物声音分类的赛题,数据集来源于Kaggle,任务是准确分类20种不同的食物咀嚼声音。同时,指导如何下载数据集并在Linux环境下进行初步的数据探索,涉及音频处理库的加载和音频特征的查看,如声谱图的展示。
摘要由CSDN通过智能技术生成

声音的产生

声音以波的形式产生,我们从波的视角来理解声音,仅凭频率,幅度,相位,便构成了波及其叠加的所有,声音的不同音高、音量、音色也由这些基本“粒子”组合而来。
世界上所有的声波都可以“降解”到基本波以上,这也是傅里叶变换的基本思想。

赛题数据集介绍

声音分类在很多场景中都有大模型的应用,例如对于音乐的分类可以应用与音乐的检索和推荐中,本赛题的背景是食物的声音的分类。
本次比赛的数据集来自Kaggle的“Eating Sound Collection”(可商用), 数据集中包含20种不同食物的咀嚼声音,赛题任务是给这些声音数据建模,准确分类。

下载天池数据集并解压

!wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/train_sample.zip
!unzip -qq train_sample.zip
!\rm train_sample.zip

!wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/test_a.zip
!unzip -qq test_a.zip
!\rm test_a.zip

上述代码需要在linux系统下运行

数据探索

加载库

import pandas as
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值