Datawhale语音识别-Task2:赛题数据介绍与分析

本文介绍了声音产生的原理,聚焦于一个声音分类比赛的数据集,该数据集涉及食物声音的分类,具有广泛的应用前景。通过使用Python的音频处理库,如Librosa和PyAudio,对数据进行初步探索,发现包含20种食物类型的7000个音频文件,总计6.26GB。分析过程中涉及查看音频波形和声谱图等特征。
摘要由CSDN通过智能技术生成

1.声音是如何产生的:

声音以波的形式传播,即声波(Sound Wave)。当我们以波的视角来理解声音时,却又大繁若简起来:仅凭频率(Frequency)、 幅度(Magnitude)、相位(Phase)便构成了波及其叠加的所有,声音的不同音高(Pitch)、音量(Loudness)、音色(Timbre) 也由这些基本“粒子”组合而来。

2.赛题数据集:

声音分类在很多场景中都有大模型的应用,例如对音乐的分类可以应用于音乐检索和音乐推荐中; 对人声的分类可以应用在身份识别、智能家居中。本比赛的背景是食物的声音的分类,是一个充满趣味性的任务。

3.赛题数据探索过程:

1.加载库:

Python有一些很棒的音频处理库,比如Librosa和PyAudio,还有一些内置的模块用于处理音频的基本处理。

2.查看音频数据:

音频文件夹的个数: 20
音频文件总量: 7000

序号   类别             数量        占比
0    cabbage             329       4.70%
1    noodles             251       3.59%
2    chocolate           178       2.54%
3    grapes              345       4.93%
4    gummies             446      
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值