( A , B)---81*30*2---(1,0)(0,1)
用神经网络分类A和B,让A是mnist的0,让B是mnist的1-9.用间隔取点的办法缩小成9*9.但让B中非0值的数量分别等于14,14*0.9,14*0.8,…,14*0.2.比较在非0值数量相同的情况下,0与B分类的迭代次数和非0值的数量的关系。
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ||
14 | 8028.492 | 7170.111 | 4563.92 | 6931.015 | 3712.191 | 5297.548 | 7865.568 | 4449.216 | 7524.784 | 1.00E-05 |
14*0.9 | 10512.76 | 7085.307 | 3957.085 | 5011.256 | 4287.045 | 4568.633 | 5539.92 | 3349.618 | 5888.221 | 1.00E-05 |
14*0.8 | 12175.1 | 8909.668 | 5329.327 | 5052.623 | 3973.759 | 3833.618 | 4698.231 | 3198.503 | 4814.271 | 1.00E-05 |
14*0.7 | 14806.39 | 9178.673 | 3901.99 | 4177.176 | 3760.663 | 3874.573 | 5672.623 | 3730 | 5220.161 | 1.00E-05 |
14*0.6 | 18403.16 | 12387.02 | 4450.814 | 4873.387 | 3520 | 4857.91 | 4257.085 | 4653.035 | 4988.834 | 1.00E-05 |
14*0.5 | 18569.19 | 16936.02 | 5504 | 4610 | 7360.563 | 5293.357 | 5994.452 | 5058.241 | 7303.035 | 1.00E-05 |
14*0.4 | 32946.66 | 21557.49 | 8226.271 | 6770 | 8412 | 6036 | 8845.538 | 6021.759 | 7886.734 | 1.00E-05 |
14*0.3 | 77674.51 | 32116.68 | 10478.2 | 8889.276 | 10278.59 | 9077.477 | 15703.26 | 9730.201 | 10279.68 | 1.00E-05 |
14*0.2 | 104475.7 | 59634.69 | 15644.66 | 15570.22 | 18435.36 | 16665.61 | 28967.59 | 15053.71 | 17749.77 | 1.00E-05 |
比如14*0.5行,表明在B中随机的保留7个左右非0值,收敛误差为1e-5,收敛199次 统计平均值。因此每一行B中的白点数量都是相同的。迭代次数的差异仅取决于白点的分布。
统计数据可以发现一些很明显的规律,
当B为3,4,5,6,8,9时,迭代次数曲线的形态看起来很一致。
7的数值也仅比上述情况稍大些。
但是当B=1,2时的迭代次数就要大很多,
所以迭代次数曲线的形态在等数值的情况下,大约分成3种:1,2和3-9.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
44.4698 | 27.7134 | 41.7294 | 17.9278 | 15.9034 | 16.9892 | 17.8176 | 14.0056 | 19.4652 | 15.9438 |
这个现象和1-9中非0值占比高度相关,3-9的非0值数量约为16.8个,这个值小于1的27.7个小于2的41.7个。
3<1<2.
但这个顺序与迭代次数的大小关系
3<2<1
并不一样。
因为
C(16,2)<C(27,2)<C(41.2)
如果迭代次数与熵成反比,就是认为在0的外部环境中从分布形态如2的41个点选3个点的可能小于从分布形态如1的27个点中选择3个点的可能。或者等效的认为形态0把2中的41个点变少了,而把1的27个点变多了。
C(16,2) <C(41-m .2) <C(27+n ,2)
或者等效的理解形态0把2缩小了,而把1放大了。所以形态与形态的差异可能用排列组合中的基数去等效的表示。