1、问题:如何优化模型 : 加速收敛, 避免overfit, 提升精度 ..?
答案:可以从以下几个参数开始:- batch size effect;- learning rate effect;- weight initialization effect;- batch normalization
- drop-out;- model average;- fine-tuning;- data augmentation
2、问题:CNN最成功的应用是在CV,那为什么NLP和Speech的很多问题也可以用CNN解出来?为什么AlphaGo里也用了CNN?这几个不相关的问题的相似性在哪里?CNN通过什么手段抓住了这个共性?
答案:几个不相关的问题的相关性在于,都存在局部与整体的关系,由低层次的特征经过组合,组成高层次的特征,并且得到不同特征之间的空间相关性。
CNN通过:局部感知、权值共享、池化操作、多层次结构抓住了这个共性。局部感知使网络可以提取数据的局部特征;权值共享大大降低了网络的训练难度;池化操作和多层次结构一起,实现了数据的降维,将低层次的特征组合成高层次的特征。
3、问题:什么时候用local-conv?什么时候用全卷积(每一个点用同一个filter)?
答案:当数据集具有全局的局部特征分布时,也就是说局部特征之间有较强的相关性,适合用全卷积。在不同的区域有不同的特征分布时,适合用local-Conv。