摘要
根据城市环境声识别的要求,为了选择更优的环境声事件识别方案,我对与UrbanSound8K声音数据集相关的论文进行了搜集、比较、分析,据此来给当前面临的识别率低的问题寻找到个一个大概的解决方向。最终我对筛选出来的10篇论文进行了记录分析。
准备工作
城市环境声数据集的选择
Urbansound8K 是目前应用较为广泛的用于自动城市环境声分类研究的公共数据集。这个数据集一共包含8732条已标注的声音片段(<=4s),包含10个分类:空调声、汽车鸣笛声、儿童玩耍声、狗叫声、钻孔声、引擎空转声、枪声、手提钻、警笛声和街道音乐声。数据集保存在百度云:提取码: tyfa
论文搜索
利用谷歌学术搜集关于Urbansound8K数据集的论文,并记录下论文标题,然后用桂电图书馆的数据库资源Web of Science和IEEE/IEE Electronic Library对搜集到的论文进行下载,下载到19篇论文(SCI:6),经过翻阅发现只有10篇文献是符合需要的,最终对这10篇文献进行分析总结。
论文整理
影响力 | 论文题目 | 特征 | 分类器 | 分类表现 |
---|---|---|---|---|
Q4 | [2] | Log-mel spectrogram | Dilated CNN | Accuracy=78% |
CA | [3] | Raw waveforms | CRNN | Accuracy=79.6% |
CA | [4] | Raw waveforms | CNN | F1 scores=57,ER=0.5 |
Q2 | [5] | Log-mel spectrogram | SB-CNN | Accuracy=79% |
Q4 | [6] | Mel-scale spectrogram | CNN | |
CA | [7] | MFCC | CNN | Accuracy=83.5% |
CA | [8] | log-mel spectrogram | CNN | Accuracy=89% |
Q3 | [9] | Raw waveforms+Logmel spectrogram | DS-CNN | Accuracy=92.2% |
JA | [10] | spectrogram,MFCC,CRP image | Google Net | Accuracy=93% |
Q2 | [11] | MFCC/log-mel spectrogram/chroma/spectral contrast and tonnetz | DS-CNN | Accuracy=97.2% |
Tip:Q4:SCI 4区,CA:EI 会议文章,JA:EI期刊文章
在此不做分析,仅做简单比较,对此感兴趣的同学,有问题欢迎讨论。
参考文献