背景
是次kaggle比赛英文名叫为"Cornell BirdCall Identification",没有官方中文名称,大概是鸟声识别竞赛。这是本人第一次的kaggle奖金比赛(除了只抄baseline然后啥都没干的比赛 ),也是第一次接触音频识别的数据分析竞赛。结果只是Top15%,不算理想。因此,本文将记录赛后复盘优秀解决方案,分析优秀选手的思路和提分技巧,同时理解自身需要提升的地方。
注意:学习笔记,不是赛后讲解,所以详细的比赛规则和数据集的类型等我就不一一详细论述。
自身困境
此部分为自己遇上的困难:
- 按照baseline训练模型,并加入竞赛要求的评判标准改善训练结果,反而公开排行榜(Public Leaderboard,下称lb)分数较低。
- 聚合不同模型时,结果比单一模型lb分数差
- 不能灵活修改模型和训练过程,如:pytorch模型定义格式改为tensorflow的模型定义格式
4.自定义的音频处理特征工程效果不明显
优胜解决方案思路分析
以下为综合部分Top10选手的notebook/kernel后的共同点,为本人的浅见,。
后处理
为什么我先说后处理(post process)呢?是次比赛特别的地方在于预测结果需要按场景作调整