制作一个二分类的网络分类mnist的0和3,收敛标准1e-6,收敛次数是1999次,隐藏层节点数从3到1000共实验了79组值。统计每次收敛的迭代次数,观察分辨准确率和迭代次数对同一收敛标准的对应规律。
隐藏层节点数 | 迭代次数的均值 | 平均分类准确率 | δ | 耗时ms/次 | 最大峰值占比% | 不同峰值数量 |
3 | 225528.8639 | 0.99216191 | 1E-06 | 1017.794397 | 3.2 | 920 |
4 | 180492.6073 | 0.992873572 | 1E-06 | 874.8694347 | 1 | 977 |
5 | 153176.2796 | 0.993332093 | 1E-06 | 849.8394197 | 2.5 | 701 |
6 | 140841.2446 | 0.993333601 | 1E-06 | 823.3416708 | 2.9 | 505 |
7 | 132496.8744 | 0.993346673 | 1E-06 | 850.7328664 | 3.7 | 376 |
8 | 127019.8734 | 0.993389157 | 1E-06 | 890.1555778 | 6 | 292 |
9 | 121743.1321 | 0.993315502 | 1E-06 | 855.1110555 | 6.4 | 245 |
10 | 117795.6293 | 0.99328609 | 1E-06 | 869.6633317 | 5.6 | 205 |
20 | 91179.56428 | 0.992468345 | 1E-06 | 1202.25913 | 14.3 | 87 |
30 | 71645.70185 | 0.990856735 | 1E-06 | 1283.252626 | 34.9 | 47 |
40 | 52466.62381 | 0.98786001 | 1E-06 | 1286.266133 | 40.5 | 21 |
50 | 28288.04652 | 0.985970372 | 1E-06 | 844.4602301 | 35.3 | 10 |
60 | 14117.54027 | 0.984868816 | 1E-06 | 533.1965983 | 53.1 | 7 |
70 | 10979.98449 | 0.985028192 | 1E-06 | 445.3021511 | 62 | 6 |
80 | 10638.81541 | 0.984156903 | 1E-06 | 524.6763382 | 69.6 | 8 |
90 | 9757.722361 | 0.982007335 | 1E-06 | 570.4182091 | 29.2 | 7 |
100 | 8878.603802 | 0.977207951 | 1E-06 | 648.2546273 | 90.6 | 7 |
110 | 7560.581791 | 0.970227073 | 1E-06 | 551.4747374 | 50.2 | 7 |
120 | 6046.066533 | 0.961413621 | 1E-06 | 571.1925963 | 89.1 | 3 |
130 | 5021.085543 | 0.970240899 | 1E-06 | 508.1095548 | 53.1 | 3 |
140 | 4089.464732 | 0.980966865 | 1E-06 | 427.3106553 | 91.8 | 3 |
150 | 3914.265133 | 0.982963341 | 1E-06 | 450.4702351 | 99.2 | 3 |
160 | 3897 | 0.983089283 | 1E-06 | 538.0455228 | 100 | 1 |
200 | 3871.009005 | 0.977139575 | 1E-06 | 639.2601301 | 93.1 | 4 |
210 | 3696.18009 | 0.974980204 | 1E-06 | 671.5392696 | 72.3 | 6 |
215 | 3286.678339 | 0.94333423 | 1E-06 | 641.4507254 | 38 | 4 |
220 | 2702.929465 | 0.853601172 | 1E-06 | 567.7673837 | 86.5 | 4 |
240 | 2596 | 0.814743804 | 1E-06 | 601.4292146 | 100 | 1 |
260 | 2596 | 0.795055317 | 1E-06 | 640.7138569 | 100 | 1 |
280 | 2595.533267 | 0.783086015 | 1E-06 | 722.8294147 | 99.9 | 2 |
290 | 2566.129065 | 0.782319803 | 1E-06 | 765.3481741 | 96.8 | 2 |
295 | 2482.834417 | 0.797667929 | 1E-06 | 762.1890945 | 87.4 | 4 |
300 | 2293.785393 | 0.837000661 | 1E-06 | 730.7393697 | 66 | 5 |
301 | 2244.909955 | 0.847812097 | 1E-06 | 655.6713357 | 60.3 | 4 |
302 | 2177.41921 | 0.864338451 | 1E-06 | 677.3711856 | 51.4 | 6 |
305 | 2022.012006 | 0.899884113 | 1E-06 | 695.0115058 | 57.8 | 5 |
310 | 1803.558779 | 0.944903105 | 1E-06 | 659.4802401 | 81.1 | 6 |
320 | 1673.505253 | 0.96343071 | 1E-06 | 611.7878939 | 98.2 | 5 |
340 | 1663 | 0.962203715 | 1E-06 | 685.9094547 | 100 | 1 |
360 | 1663 | 0.960327903 | 1E-06 | 733.4092046 | 100 | 1 |
380 | 1663 | 0.958766821 | 1E-06 | 717.7158579 | 100 | 1 |
400 | 1663 | 0.957284421 | 1E-06 | 859.5852926 | 100 | 1 |
420 | 1662.861931 | 0.955882967 | 1E-06 | 817.0575288 | 99.9 | 2 |
440 | 1646.682341 | 0.951288207 | 1E-06 | 834.7243622 | 93.9 | 3 |
460 | 1472.213607 | 0.915313938 | 1E-06 | 897.7098549 | 68.3 | 5 |
480 | 1389.0005 | 0.89510509 | 1E-06 | 824.6728364 | 83.7 | 5 |
500 | 1385.537269 | 0.880267772 | 1E-06 | 932.2776388 | 100 | 1 |
520 | 1378.798899 | 0.854598153 | 1E-06 | 778.1770885 | 79.2 | 3 |
540 | 1353.688344 | 0.779361037 | 1E-06 | 839.8534267 | 97.8 | 2 |
560 | 1352.927464 | 0.767775345 | 1E-06 | 756.9969985 | 99.9 | 2 |
580 | 1346.689345 | 0.766967906 | 1E-06 | 854.7538769 | 95.6 | 2 |
590 | 1332.218609 | 0.784895966 | 1E-06 | 824.3956978 | 85.8 | 3 |
595 | 1315.088044 | 0.810554775 | 1E-06 | 887.1685843 | 74.1 | 3 |
600 | 1297.293647 | 0.833875983 | 1.00E-06 | 864.6323162 | 62.6 | 3 |
610 | 1251.265133 | 0.884327842 | 1E-06 | 799.5957979 | 58 | 3 |
620 | 1202.116558 | 0.909436879 | 1E-06 | 847.2341171 | 67.3 | 3 |
630 | 1148.246623 | 0.891357236 | 1E-06 | 868.3021511 | 56.9 | 3 |
640 | 1102.215608 | 0.847185402 | 1E-06 | 830.2316158 | 62.9 | 5 |
650 | 1062.614307 | 0.797253149 | 1E-06 | 859.0775388 | 85.6 | 5 |
660 | 1042.4007 | 0.755573515 | 1E-06 | 810.5287644 | 88.6 | 5 |
670 | 1018.533767 | 0.671164728 | 1E-06 | 832.953977 | 65.4 | 4 |
680 | 993.12006 | 0.563521208 | 1E-06 | 856.5077539 | 74.2 | 3 |
690 | 978.7268634 | 0.510132453 | 1E-06 | 848.3081541 | 94.9 | 3 |
700 | 968.6573287 | 0.512699314 | 1E-06 | 877.2486243 | 96 | 3 |
720 | 920.2506253 | 0.606602045 | 1E-06 | 815.4517259 | 74.1 | 2 |
740 | 850.9024512 | 0.746866901 | 1E-06 | 827.106053 | 57.6 | 2 |
760 | 792.8514257 | 0.86296314 | 1E-06 | 873.7658829 | 83.1 | 4 |
780 | 604.5072536 | 0.741864148 | 1E-06 | 758.8714357 | 55.1 | 4 |
800 | 405.188094 | 0.516227209 | 1E-06 | 690.7433717 | 95.1 | 2 |
820 | 387 | 0.493433651 | 1E-06 | 728.7133567 | 100 | 1 |
840 | 387 | 0.493246623 | 1E-06 | 749.058029 | 100 | 1 |
860 | 387 | 0.493043758 | 1E-06 | 766.5687844 | 100 | 1 |
880 | 386.877939 | 0.492933401 | 1E-06 | 820.8094047 | 99.9 | 2 |
900 | 379.066033 | 0.492794136 | 1E-06 | 797.971986 | 93.5 | 2 |
920 | 349.4052026 | 0.492643055 | 1E-06 | 743.5397699 | 69.2 | 2 |
940 | 303.2661331 | 0.492528676 | 1E-06 | 793.4982491 | 68.6 | 2 |
960 | 275.1310655 | 0.492479908 | 1E-06 | 792.1855928 | 91.7 | 2 |
980 | 266.5837919 | 0.492474378 | 1E-06 | 800.042021 | 98.5 | 3 |
1000 | 264.821911 | 0.492487953 | 1E-06 | 819.8394197 | 98.8 | 3 |
一个很意外的发现,网络的平均分辨准确率随着隐藏层节点数n的增加并不是简单的线性变化的,在3-1000这个区段至少发现了5个精细结构
分别是n=100,290,580,690.在这个4个节点数分辨准确率对隐藏层节点数有明确的拐点,也就表明隐藏层节点数对网络的分辨准确率不存在简单的线性关系。当n=6时pave=0.993389156890011是最大值,也就是在3-1000这个区段上至少有1个峰,4个谷。
峰值占比
当n=6时网络pave取得最大值,这个网络收敛了1999次产生了505个不同的峰值,其中最大峰136347也只不过占了总数的2.9%,综合所有实验数据表明pave比较大的网络峰值占比都显著的比较低.
峰值占比低于10的网络的pave都显著的更高。当n>800以后峰值占比接近100,也就是只有一个特征主峰。这时的pave约为0.5.如果不同的峰值越多表明网络的不同特征越多,则这个实验表明随着n的增加网络的特征反而降低了。或者说隐藏层节点数越小网络可以表现出越多的特征,不同的特征越多越有利分类。
不同峰值数量
当n=4时不同峰值数量为977是实验的79组数据中不同峰值数量最大的。
特别是当n大于10以后不同峰值数量就已经下降到个位数。表明网络随着n的增加正变得更加特征单一,而单一的特征却不利于分类。
观察不同峰值数量表格
隐藏层节点数 n | 峰值占比% | 不同峰值数量 | 1/n^2 | 不同峰值数量/(1/n^2) |
3 | 3.2 | 920 | ||
4 | 1 | 977 | 0.0625 | 15632 |
5 | 2.5 | 701 | 0.04 | 17525 |
6 | 2.9 | 505 | 0.027778 | 18180 |
7 | 3.7 | 376 | 0.020408 | 18424 |
8 | 6 | 292 | 0.015625 | 18688 |
9 | 6.4 | 245 | 0.012346 | 19845 |
10 | 5.6 | 205 | 0.01 | 20500 |
20 | 14.3 | 87 | 0.0025 | 34800 |
30 | 34.9 | 47 | 0.001111 | 42300 |
40 | 40.5 | 21 | 0.000625 | 33600 |
50 | 35.3 | 10 | 0.0004 | 25000 |
60 | 53.1 | 7 | 0.000278 | 25200 |
70 | 62 | 6 | 0.000204 | 29400 |
80 | 69.6 | 8 | 0.000156 | 51200 |
90 | 29.2 | 7 | 0.000123 | 56700 |
100 | 90.6 | 7 | 0.0001 | 70000 |
110 | 50.2 | 7 | 8.26E-05 | 84700 |
120 | 89.1 | 3 | 6.94E-05 | 43200 |
130 | 53.1 | 3 | 5.92E-05 | 50700 |
140 | 91.8 | 3 | 5.1E-05 | 58800 |
可以非常明确的观察到不同峰值数量与1/n^2有非常明显的对应关系。
由此可以假设一个关系式
num是不同峰值数量
C03是mnist的0和3之间的特征差异总量
假设C03是一个定值,而将一次收敛理解成是一次跃迁,有n*n种可能的跃迁路径也就是能级,如n=4则共有4*4个能级,这个假设可以解释特征峰数量随着n的增加而减小的现象。