虽然拿不出数学证明,但是现在我个人的实验表明对应特定的收敛标准神经网络的迭代次数和迭代次数的分布都是特征的。这种特征非常类似化学上的光谱,所以是否有可能利用这种光谱来分类神经网络?
(mnist 0 ,mnist x)81-30-2-(1,0) || (0,1)
分别制作了9个网络来二分类mnist的0-1到0-9.
网络结构是81*30*2,让0向(1,0)收敛,让x向(0,1)收敛。
设定这个网络停止迭代的标准是
|输出函数-目标函数|<δ
让δ=1e-6,重复999次,统计平均值和分布,然后用得到的数据画图。
得到的数据表格
0-1 | 53882 | 63878 | 72108 | 73874 | 75502 | 82104 | 83870 | 85498 | 92100 | ||||||||||||||||||||||||||||||||
5 | 348 | 1 | 435 | 68 | 30 | 74 | 36 | 2 | |||||||||||||||||||||||||||||||||
0-2 | 14610 | 17600 | 18466 | 24606 | 27596 | 28462 | 34602 | 37592 | 40288 | 44598 | 47502 | 47588 | 54594 | 57572 | 57584 | ||||||||||||||||||||||||||
1 | 26 | 46 | 34 | 287 | 29 | 31 | 338 | 1 | 18 | 3 | 159 | 3 | 1 | 22 | |||||||||||||||||||||||||||
0-3 | 50729 | 60411 | 60631 | 60725 | 68981 | 69862 | 70341 | 70407 | 70547 | 70605 | 70627 | 70721 | 76308 | 78977 | 79858 | 80337 | 80403 | 80425 | 80543 | 80623 | 80717 | 82132 | 84161 | 85946 | 86304 | 86375 | 87046 | 88973 | 89226 | 89854 | 90333 | 90399 | 90421 | 90619 | 90713 | 92128 | 95942 | 98969 | 1E+05 | ||
4 | 9 | 7 | 176 | 3 | 1 | 2 | 77 | 2 | 1 | 70 | 350 | 2 | 13 | 7 | 8 | 43 | 3 | 2 | 22 | 142 | 1 | 2 | 7 | 4 | 1 | 1 | 5 | 1 | 7 | 1 | 1 | 3 | 1 | 15 | 1 | 2 | 1 | 1 | |||
0-4 | 17072 | 23196 | 26250 | 27068 | 32080 | 33192 | 37064 | 42076 | 43188 | 47060 | 52072 | 53184 | 57056 | ||||||||||||||||||||||||||||
1 | 1 | 9 | 322 | 1 | 1 | 497 | 10 | 16 | 127 | 4 | 4 | 6 | |||||||||||||||||||||||||||||
0-5 | 14646 | 15898 | 19942 | 22618 | 24642 | 25816 | 25894 | 29478 | 29924 | 29938 | 32614 | 39934 | 39940 | ||||||||||||||||||||||||||||
199 | 70 | 241 | 59 | 32 | 2 | 2 | 1 | 1 | 376 | 9 | 6 | 1 | |||||||||||||||||||||||||||||
0-6 | 50757 | 52575 | 52621 | 57079 | 57275 | 58649 | 58791 | 58837 | 60463 | 60753 | 62571 | 62617 | 63525 | 67073 | 67075 | 67271 | 67349 | 68645 | 68787 | 68833 | 69117 | 69237 | 70459 | 70749 | 72567 | 72613 | 77071 | 77267 | 77345 | 78517 | 78641 | 78783 | 78829 | 79113 | 79233 | 80455 | 80745 | 87067 | |||
6 | 8 | 2 | 1 | 1 | 2 | 2 | 22 | 74 | 204 | 29 | 38 | 1 | 3 | 48 | 34 | 14 | 17 | 21 | 45 | 8 | 3 | 220 | 117 | 7 | 6 | 15 | 10 | 3 | 4 | 3 | 6 | 3 | 2 | 1 | 12 | 4 | 3 | ||||
0-7 | 14416 | 15788 | 17210 | 18460 | 21218 | 24412 | 25784 | 27206 | 28456 | 34408 | 35780 | 38452 | |||||||||||||||||||||||||||||
6 | 3 | 82 | 538 | 54 | 160 | 8 | 51 | 91 | 3 | 2 | 1 | ||||||||||||||||||||||||||||||
0-8 | 43373 | 43851 | 43963 | 50729 | 51547 | 51643 | 52485 | 52869 | 52905 | 53369 | 53469 | 53639 | 53643 | 53663 | 53847 | 53959 | 55743 | 55749 | 56805 | 57147 | 60725 | 60911 | 61543 | 61639 | 62481 | 63659 | 63843 | 63955 | 63997 | 65739 | 66109 | 66801 | 67143 | 71539 | 72477 | 73127 | 73655 | 73839 | 73993 | 75735 | 76797 |
1 | 1 | 2 | 24 | 13 | 44 | 1 | 1 | 1 | 2 | 3 | 2 | 1 | 94 | 100 | 57 | 58 | 3 | 37 | 39 | 54 | 2 | 134 | 36 | 20 | 102 | 65 | 7 | 2 | 50 | 2 | 16 | 4 | 4 | 1 | 1 | 1 | 3 | 2 | 5 | 4 | |
0-9 | 50560 | 52046 | 52236 | 57582 | 60556 | 62042 | 62232 | 67578 | 70552 | 70870 | 70982 | 72038 | 72228 | 77574 | 80866 | 80914 | 80978 | 82034 | 90910 | 90974 | 92030 | ||||||||||||||||||||
1 | 11 | 12 | 3 | 15 | 249 | 26 | 10 | 6 | 1 | 72 | 394 | 8 | 6 | 1 | 1 | 71 | 89 | 1 | 11 | 11 |
f2[0] | f2[1] | 迭代次数n | 平均准确率p-ave | δ | 耗时ms/次 | 耗时ms/999次 | 最大值p-max | |
0-1 | 8.35E-07 | 0.999999 | 71843.86 | 0.999622 | 1.00E-06 | 1177.159 | 1175999 | 1 |
0-2 | 7.96E-07 | 0.999999 | 34757.467 | 0.985059 | 1.00E-06 | 647.1351 | 646488 | 0.988569 |
0-3 | 0.965965 | 0.034035 | 72074.481 | 0.990897 | 1.00E-06 | 1297.528 | 1296247 | 0.99397 |
0-4 | 7.68E-07 | 0.999999 | 35365.608 | 0.989317 | 1.00E-06 | 651.8589 | 651238 | 0.995413 |
0-5 | 7.46E-07 | 0.999999 | 22971.994 | 0.983244 | 1.00E-06 | 402.9279 | 402540 | 0.987714 |
0-6 | 0.999999 | 8.98E-07 | 66716.001 | 0.987435 | 1.00E-06 | 1219.633 | 1218413 | 0.990196 |
0-7 | 8.30E-07 | 0.999999 | 20945.708 | 0.991728 | 1.00E-06 | 401.4324 | 401047 | 0.994444 |
0-8 | 0.999999 | 8.97E-07 | 58868.173 | 0.99014 | 1.00E-06 | 1076.166 | 1075122 | 0.992835 |
0-9 | 8.56E-07 | 0.999999 | 70491.069 | 0.991119 | 1.00E-06 | 1296.209 | 1294918 | 0.992459 |
比如对应第一组数据0-1表明让网络分类0和1在δ=1e-6时迭代次数平均需要71843次,对应这71843次一共有9个值从53882到92100,而这9个值不是连续的,出现次数最多的是73874共出现了435次。出现次数最少的72108只出现了一次。
将第一组数据画成图
有两个明显的主峰分别是73874和63878,占比接近43.5%和34.8%
第二组数据
0-2的谱有明显的3个主峰分别是27596,37592,47588,占比分别是28.7%,33.8%,15.9%
0-3的谱
0-3的平均迭代次数为72074但出现了39个不同的数据,有3个明显的主峰本别是60725,70721,80717,占比分别是17.6%,35%,14.2%。另外在80543到100709这段高频区间出现了15个小于等于3的小峰。
0-4的谱
0-4的主峰也有3个,位置分别是27068,37064,47060,占比分别是32.2%,49.7%,12.7%。比较特别的这3个主峰的位置很接近0-2的主峰的位置
0-2 | 27596 | 37592 | 47588 |
287 | 338 | 159 | |
0-4 | 27068 | 37064 | 47060 |
322 | 497 | 127 | |
0.981 | 0.986 | 0.989 |
比较0-4和0-2三个数峰的位置,0-4的主峰比0-2的三个主峰的位置大约都小了1%-2%。0-4主峰37064的占比高达49.7%,是1-9所有统计中第二高的峰值。
0-5的谱
0-5有三处主峰14646,19942,29938,占比分别是19.9%,24.1%,37.6%
0-6的谱
0-6的迭代次数的平均值是68667,出现了38个值,峰值的数量和0-3的数量相差不多,有两个主峰60753和70459占比分别是20.4%,22%,比较特别的在这两个主峰的附近都有一个明显的伴峰占比7.4%的60463和占比11.7%的70749显示了一种精细的二级结构。在低频区和高频区还有两处强度小于等于3的小峰丛。
0-7的谱
0-7的谱只有一个非常明显的主峰18460占比53.8%这也是所有9张谱中最强的峰值,特征非常明显。
0-8的谱
0-8的平均迭代次数是60100,出现了41个峰值,这个也侧面佐证了相对0而言3,6,8的外形比较像。但与0-3和0-6不同0-8的主峰不明显,最大的峰值61543占比也仅有13..4%。在大于60911的高频区出现了8个小于等于3的小峰构成了一丛,在43373到55749的低频区有11个小于等于3的小峰构成了另一丛。
0-9的谱
0-9有两个明显的主峰62042和72038占比分别是24.9%和39.4%。这两个主峰的位置和0-6的两个主峰的位置很接近
0-6 | 60753 | 70459 |
204 | 220 | |
0-9 | 62042 | 72038 |
249 | 394 | |
| 1.021 | 1.022 |
但是0-9的主峰的位置比0-6的两个主峰的位置大了2%,0-9在低频区和高频区也有两个不是非常明显的两个小峰丛。侧面佐证了6和9结构上的对称关系。
因此这9张谱图都是高度特征的,主峰的强度和位置都不同,有稳定精细的结构,可以比较容易的用化学上的读谱法区分这9个网络,就像区分9种结构不同的分子。