(mnist 0 ,2)-81*n*2-(1,0)(0,1)
让n分别等于3,5,10,20,30,40,50,60,70,80,90,100,100,110,120,130,
让δ=1e-6, ret=0.1,weix=1000.
对应每个收敛标准收敛1999次。观察迭代次数对同一收敛标准的分布规律。
实验得到数据如下
隐藏层节点数 | 迭代次数的均值 | 平均分类准确率 | δ | 耗时ms/次 | 最大峰值占比% | 不同峰值数量 |
3 | 178616.4877 | 0.986592451 | 1.00E-06 | 796.08804 | 7 | 683 |
5 | 117136.8594 | 0.98855914 | 1.00E-06 | 621.7969 | 3 | 674 |
10 | 80329.23862 | 0.988490518 | 1.00E-06 | 583.22361 | 18 | 162 |
20 | 56105.15958 | 0.987261772 | 1.00E-06 | 732.94347 | 46 | 40 |
30 | 34663.66183 | 0.985049185 | 1.00E-06 | 606.98649 | 37 | 23 |
40 | 18375.36068 | 0.983432571 | 1.00E-06 | 453.7964 | 38 | 13 |
50 | 12000.17909 | 0.982436049 | 1.00E-06 | 382.18659 | 34 | 13 |
60 | 8716.448224 | 0.982761759 | 1.00E-06 | 335.53677 | 62 | 8 |
70 | 7765.041521 | 0.981953203 | 1.00E-06 | 357.97199 | 82 | 6 |
80 | 7575.328664 | 0.981890548 | 1.00E-06 | 389.42671 | 80 | 7 |
90 | 6987.775888 | 0.982819939 | 1.00E-06 | 417.70035 | 47 | 7 |
100 | 5530.548274 | 0.98257404 | 1.00E-06 | 423.09355 | 55 | 9 |
110 | 4701.468734 | 0.981943755 | 1.00E-06 | 384.8024 | 55 | 9 |
120 | 4529.92096 | 0.981862701 | 1.00E-06 | 392.42271 | 92 | 5 |
130 | 4516.147074 | 0.981792089 | 1.00E-06 | 511.30415 | 100 | 2 |
比如第一组数据对应的迭代次数分布图片
迭代次数的峰值为160393,在1999次迭代中占到大约7%,不同的峰值共有683个。
统计分类准确率和峰值占比的数据有很强的相关性
当n=5时取得最大pave=0.988559140405195
同样当n=5时最大峰值为120409,这个峰值占比只有约3%,是所有15组数据最大峰值占比最小的。而不同峰值数量也仅次于n=3的683峰,有674峰。
这个实验表明最大峰值占比与网络的分类准确率有很强的关联性。
从实验结果上看随着n的增加迭代次数在减小,同时迭代次数的散度也在减小,当n=130时只有4516和4614两个峰值,其中4614只出现了3次,占比不过千分之1.5.
从耗时上来考虑,效率最优值是n=8,当n>8以后随着节点数的增加单次计算量增大,耗时也增加。当n<8随着n的增加大体上网络收敛效率是增加的。
但分类效率最优值和分类性能最优值并不重合。
其余14组图片