基于Urbansound8K数据集的环境声识别的方法简述

最新推荐文章于 2024-02-18 04:28:49 发布

置顶风雪夜回

最新推荐文章于 2024-02-18 04:28:49 发布

阅读量6.7k

点赞数 9

分类专栏：环境声识别方案

转载请说明出处，欢迎讨论!

本文链接：https://blog.csdn.net/qq_30229253/article/details/94593781

版权

环境声识别方案专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

摘要
准备工作
论文整理
参考文献

摘要

根据城市环境声识别的要求，为了选择更优的环境声事件识别方案，我对与UrbanSound8K声音数据集相关的论文进行了搜集、比较、分析，据此来给当前面临的识别率低的问题寻找到个一个大概的解决方向。最终我对筛选出来的10篇论文进行了记录分析。

准备工作

城市环境声数据集的选择
Urbansound8K 是目前应用较为广泛的用于自动城市环境声分类研究的公共数据集。这个数据集一共包含8732条已标注的声音片段(<=4s)，包含10个分类：空调声、汽车鸣笛声、儿童玩耍声、狗叫声、钻孔声、引擎空转声、枪声、手提钻、警笛声和街道音乐声。数据集保存在百度云：提取码: tyfa
论文搜索
利用谷歌学术搜集关于Urbansound8K数据集的论文，并记录下论文标题，然后用桂电图书馆的数据库资源Web of Science和IEEE/IEE Electronic Library对搜集到的论文进行下载，下载到19篇论文(SCI:6)，经过翻阅发现只有10篇文献是符合需要的，最终对这10篇文献进行分析总结。

论文整理

影响力	论文题目	特征	分类器	分类表现
Q4	[2]	Log-mel spectrogram	Dilated CNN	Accuracy=78%
CA	[3]	Raw waveforms	CRNN	Accuracy=79.6%
CA	[4]	Raw waveforms	CNN	F1 scores=57,ER=0.5
Q2	[5]	Log-mel spectrogram	SB-CNN	Accuracy=79%
Q4	[6]	Mel-scale spectrogram	CNN
CA	[7]	MFCC	CNN	Accuracy=83.5%
CA	[8]	log-mel spectrogram	CNN	Accuracy=89%
Q3	[9]	Raw waveforms+Logmel spectrogram	DS-CNN	Accuracy=92.2%
JA	[10]	spectrogram,MFCC,CRP image	Google Net	Accuracy=93%
Q2	[11]	MFCC/log-mel spectrogram/chroma/spectral contrast and tonnetz	DS-CNN	Accuracy=97.2%

Tip:Q4：SCI 4区，CA：EI 会议文章，JA：EI期刊文章
在此不做分析，仅做简单比较，对此感兴趣的同学，有问题欢迎讨论。

参考文献

在这里插入图片描述
加粗样式

风雪夜回

关注

9
点赞
踩
55

收藏

觉得还不错? 一键收藏
41
评论
基于Urbansound8K数据集的环境声识别的方法简述

摘要根据城市环境声识别的要求，为了选择更优的环境声事件识别方案，我对与UrbanSound8K声音数据集相关的论文进行了搜集、比较、分析，据此来给当前面临的识别率低的问题寻找到个一个大概的解决方向。最终我对筛选出来的10篇论文进行了记录分析。准备工作城市环境声数据集的选择Urbansound8K 是目前应用较为广泛的用于自动城市环境声分类研究的公共数据集。这个数据集一共包含8732条已标注...
复制链接

扫一扫