( 0 , 7)---m*n*2---(1,0)(0,1)
将mnist的图片用间隔取点的办法缩小成9*9,统计图片中非0点的个数
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
44.4698 | 27.7134 | 41.7294 | 17.9278 | 15.9034 | 16.9892 | 17.8176 | 14.0056 | 19.4652 | 15.9438 |
结果表明0有最多非0点,平均约为44.5个。而7最少,在81个值中只有约14个值非零。现在改变形态7中非零点的数量比较迭代次数是如何变化的。
0*7 | |||||||||
f2[0] | f2[1] | 迭代次数n | 平均准确率p-ave | 1-0 | 0-1 | δ | 耗时ms/次 | 耗时ms/199次 | |
44.4698-14.0056 | 8.55E-06 | 0.999991 | 7822.01 | 0.992943 | 0.995795 | 0.990223 | 1.00E-05 | 270.7437 | 53889 |
44.4698-14.0056*0.9 | 8.43E-06 | 0.999992 | 5539.92 | 0.989532 | 0.989457 | 0.989603 | 1.00E-05 | 174.8241 | 34797 |
44.4698-14.0056*0.8 | 7.11E-06 | 0.999993 | 4698.231 | 0.984982 | 0.980028 | 0.989705 | 1.00E-05 | 169.3769 | 33842 |
44.4698-14.0056*0.7 | 8.02E-06 | 0.999992 | 5672.623 | 0.99049 | 0.985627 | 0.995126 | 1.00E-05 | 184.3367 | 36689 |
44.4698-14.0056*0.6 | 6.43E-06 | 0.999994 | 4257.085 | 0.991707 | 0.991888 | 0.991534 | 1.00E-05 | 156.2965 | 31117 |
44.4698-14.0056*0.5 | 6.36E-06 | 0.999994 | 5994.452 | 0.994202 | 0.994862 | 0.993572 | 1.00E-05 | 197.5276 | 39319 |
44.4698-14.0056*0.4 | 8.39E-06 | 0.999992 | 8845.538 | 0.995017 | 0.995929 | 0.994149 | 1.00E-05 | 260.4221 | 51840 |
44.4698-14.0056*0.3 | 9.09E-06 | 0.999991 | 15703.26 | 0.998956 | 0.997862 | 1 | 1.00E-05 | 447.2864 | 89020 |
44.4698-14.0056*0.2 | 8.97E-06 | 0.999991 | 28967.59 | 0.99965 | 1 | 0.999316 | 1.00E-05 | 895.5377 | 178223 |
比如最后一组数据44.4698-14.0056*0.2表明,形态7中只随机保留20%的非0点,也就是只有2-3个白点其余全是黑色。实验结果表明即便如此网络也可以实现收敛,而且分类准确率是所有10组数据中最高的。
比较迭代次数的变化
迭代次数是先减小再增加的,最低点约为60%。按照迭代次数和熵的反比关系假设
表明这两组图片表达的熵是先增加后减小。
随着非0值的减少熵减小这很好解释,但如何解释60%以前,随着非0值的减少熵增加的现象?因为是黑底白字,所以两组图片之间的差异应该有4种
0 | 白 | 7 | 白 |
0 | 白 | 7 | 黑 |
0 | 黑 | 7 | 黑 |
0 | 黑 | 7 | 白 |
应该是这4种差异共同决定了分类的结果,如果7中白点减少,则黑点增加,
0 | 白 | 7 | 白 | 减小 |
0 | 黑 | 7 | 白 | 减小 |
形态0相对7的白色的差异应该是变小了,变得不明显了。而
0 | 白 | 7 | 黑 | 增加 |
0 | 黑 | 7 | 黑 | 增加 |
相对7的黑色部分的差异应该是变大。
因此随着7中白点的减小,只要假设在60%前差异增加的部分大于差异减小的部分,而在60%以后差异的增加的部分小于差异的减小的部分,就可以解释曲线的拐点。