前言
一、文章内容
-
文章想法:
- 采用全连接卷积网络进行特征提取以适应可变长度的音频数据
- 采用迁移学习的方法提高模型精度——VGG,RESNENT复杂网络需要更多的的数据支持才能获得高的精度
- 使用了一个2D注意力机制,不仅注意时间序列,而且注意频率方向的特征
-
输入数据:
- 任意尺寸的频谱数据
-
文章模型:
- 整体的模型流程:
- 整体的模型流程:
-
具体模型细节:
-
训练方式:
- 五次交叉验证
- 只是用了排练的脚本
- 迁移学习
- 使用加权精度和不加权的精度来做评价指标:
- Weighted accuracy - the overall accuracy across all utterances of the testing set.
- Unweighted accuracy - the average of accuracies across all the classes.
-
模型输出:
- 分类问题
-
实验结果:
-
文章结论:
- 模型不错
二、文章总结
-
文章novel和优势:FCN处理任意长度的频谱,注意力层同时关注了时域和频域的信号
-
同其他文章比较的劣势:虽然使用注意力层关注了两个维度上的特征,但是没有考虑上下文特征的影响,时序数据肯定要考虑上下环境的影响的。