在《使用Softmax回归模型来测试Kaggle入门比赛》基础上,我又测试了一个相对比较简单的CNN模型。这次使用的数据仍然是20 * 20个像素的图片。
架构
参考Build a Multilayer Convolutional Network我搭建了如下结构的CNN网络。
Layer Type | Channels | Size | Result Channels |
---|---|---|---|
Input | 1 | 20x20 | |
Convolution | 32 | 3x3 | 20x20x32 |
Max pool | - | 2x2 | 10x10x32 |
Convolution | 64 | 3x3 | 10x10x64 |
Max pool | - | 2x2 | 5x5x64 |
Fully connected | 1 | 1024 | 1024 |
Dropout | - | 0.5 | |
Softmax | 62 | - |
激活函数 这里面使用的激活函数是Relu
池化 池化层使用的是窗口2x2的最大池化方式。
Dropout概率 训练时是0.5,测试与预测是1.0。
最优化函数 使用了AdmOptimizer作为本次的最优化函数。
迭代次数 大约在1万次迭代后便能达到不错的结果。
具体细节在这里cpcpfds.py
结果
62分类的测试,测试集6220,分类正确率为0.71433(看这里IceBear)
总结及后续
经过测试卷积的模版的大小,模版的大小为3x3或5x5时,结果差别不大。但,使用5x5的过滤模版时,收敛的迭代次数变少了。
颜色对于数字、字母识别帮助不大。
深度学习确实对分类问题有很大的帮助,但是却很难解释它学习出来的特征是什么。而且,选用不同的参数、模版对结果影响很大。
这次测试没有通过一些图片修改手段来增加样本容量,相信增加之后,分类效果会有一定的提升。
有待检验的问题:
- 将训练图像的尺寸增大到64x64会不会有帮助?
- 通过图像微调增大训练样本数量的效果如何?
- 如果将学习率设定为一个(指数)递减的值,会不会让结果稳定到一个值?
- 每一层学习出来的数据与上一层我我得到的数据之间有什么关系吗?
参考
Build a Multilayer Convolutional Network
Using deep learning to read street signs
Relu