如下表1和表2所示,人声测试集包含:电视节目、讲故事、评书、说相声、有声电台等;音乐测试集包含:华语舞曲、R&B、西方民谣、华语摇滚、rap、1614混合曲集等。
表1测试集中,人声的平均识别率在89.31%,音乐的平均识别率在95.95%。相声和故事的结果较差,原因在于测试集中包含的相声现场录制环境较差,环境吵闹,频谱混乱;而讲故事有比较明显的音乐背景伴奏。
表1 音乐和人声自动分类结果
| 正确数目 | 数目 | 准确率 |
电视节目 | 59 | 66 | 0.893939 |
故事 | 69 | 88 | 0.784091 |
评书 | 181 | 186 | 0.973118 |
相声 | 73 | 96 | 0.760417 |
有声电台 | 41 | 44 | 0.930233 |
1800有声 | 96 | 101 | 0.950495 |
合计 | 518 | 580 | 0.893103 |
|
|
|
|
1800音乐 | 1614 | 1690 | 0.95503 |
华语舞曲 | 54 | 54 | 1 |
R&B | 44 | 44 | 1 |
西方民谣 | 80 | 80 | 1 |
华语摇滚 | 50 | 52 | 0.961538 |
rap | 104 | 108 | 0.962963 |
合计 | 1946 | 2028 | 0.959566 |
合理阈值 | 0.5 |
|
|
表2 两层筛选自动分类结果
| 正确数目 | 数目 | 准确率 |
电视节目 | 62 | 66 | 0.939394 |
故事 | 72 | 88 | 0.818182 |
评书 | 182 | 186 | 0.978495 |
相声 | 77 | 96 | 0.802083 |
有声电台 | 41 | 43 | 0.953488 |
1800有声 | 96 | 101 | 0.950495 |
合计 | 530 | 580 | 0.913793 |
|
|
|
|
1800音乐 | 1592 | 1688 | 0.943128 |
华语舞曲 | 54 | 54 | 1 |
R&B | 43 | 44 | 0.977273 |
西方民谣 | 80 | 80 | 1 |
华语摇滚 | 49 | 52 | 0.942308 |
rap | 104 | 108 | 0.962963 |
合计 | 1922 | 2026 | 0.948667 |
合理阈值 | 0.5 |
|
|