按照迭代次数和熵之间反比关系的假设
(A,B)---m*n*k---(1,0)(0,1)
可以合理的推测两个分类对象之间的熵取决于点的数值大小和分布,这次就从数值大小的角度验证迭代次数和熵之间的关系。
(0,3)---m*n*k---(1,0)(0,1)
用神经网络分类mnist的0和3,用间隔取点的办法把图片缩小为9*9,让0就是原始数据集的0。mnist 3随机的保留70%的点,并在归一化的操作中增加一个系数d。让d分别等于1,0.9,0.8,…,0.1.比如如果d=0.1就意味这3中的所有点的最大值就是0.1,相当于归0.1化。而0都按照正常的方式归一化。因此点的分布完全相同,而迭代次数的差异仅仅取决于数值大小。
考虑两个粒子n和m,n的运动范围是0-1,另一个粒子m运动范围是0-0.1,因为n粒子的运动区间包含了m粒子的运动区间,所以m粒子可能的状态数应该小于n粒子可能的运动状态数量。因此n粒子的熵应该大于m粒子的熵。因此系数d越大熵越大。
现在不管形态0和3到底是如何相互作用的,把0和3考虑成一个复合的整体,这个整体在点的位置关系没有变化的情况下,点的数值大小变了。系数d值对0和3的复合体的影响应该和对n和m的影响是一致的。
因此有理由假设随着系数d的减小0和3的复合体的熵减小,迭代次数增加。
让收敛误差为1e-4到1e-5,每个收敛误差统计199次,取平均值。得到表格
*d:1 | 0.9 | 0.8 | 0.7 | 0.6 | 0.5 | 0.4 | 0.3 | 0.2 | 0.1 | |
δ | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n |
1.00E-04 | 2376.150754 | 2800.271357 | 2626.100503 | 3907.909548 | 3742 | 5205.105528 | 6087.638191 | 10873.94975 | 20774.23116 | 29083.03015 |
9.00E-05 | 2524.733668 | 2889.929648 | 2886.552764 | 4186.140704 | 3742 | 5209.59799 | 6454.221106 | 11297.8995 | 22375.69849 | 32312.17588 |
8.00E-05 | 2667.58794 | 2903.487437 | 2983.366834 | 4295.537688 | 3842.110553 | 5210 | 7736.271357 | 12169.38693 | 23928.75377 | 36107.54271 |
7.00E-05 | 2739.507538 | 2920.79397 | 3003.557789 | 4363.648241 | 4779.698492 | 5306.78392 | 8575.718593 | 14153.8593 | 24540.13065 | 41005.40201 |
6.00E-05 | 2953.798995 | 2961.738693 | 3026.753769 | 4597.005025 | 5197.949749 | 5557.688442 | 8658.653266 | 14807.96985 | 27646.0804 | 47307.65327 |
5.00E-05 | 3101.477387 | 2985.085427 | 3089.326633 | 4791.095477 | 5375.537688 | 5684.693467 | 8678 | 15468.83417 | 31340.38191 | 57505.47236 |
4.00E-05 | 3389.98995 | 3038.01005 | 3735.59799 | 4934.643216 | 5957.306533 | 7151.969849 | 8743.668342 | 16236.35176 | 34356.0402 | 69970.20603 |
3.00E-05 | 3531.025126 | 3569.427136 | 4368.201005 | 5044 | 6266 | 7600.562814 | 10017.12563 | 18448.62312 | 42366.81407 | 93417.52764 |
2.00E-05 | 3848.40201 | 4187.688442 | 4744 | 5140.020101 | 6266 | 9674.452261 | 12889.20603 | 23425.88945 | 52728.90452 | 134846.8593 |
1.00E-05 | 4212.81407 | 4744 | 5361.778894 | 5970 | 7748.281407 | 10620 | 14199.10553 | 27930.41206 | 74308.67337 | 234247.6332 |
比如2739.507538,这个值表明在d=1,收敛误差为7e-5的情况下收敛199次的平均值为2739.507538. 选择收敛误差分别等于3e-5,2e-5,1e-5的几组画成图
可以看到随着d的减小迭代次数增加,所以这个实验现象和假设符合的很好。
这个实验验证了迭代次数和熵之间成反比的假设,也某种程度上表明了把完成收敛的0和3看成是一个复合体的可能,表明了对于两个二维形态的熵可以体现一种非递进的二维形态表象,同时也有一个一维的连续的线性递进表象。
或者点的位置关系决定了形态复合体的一种二维非递进表象,而数值的大小决定了形态复合体的一维连续表象。