A | 5 | 7 | 2 | 4 | 3 | 9 | 1 | 6 | 8 |
0 | 5402.955 | 7822.01 | 8358.603 | 11983.15 | 12572.23 | 13346.79 | 23558.45 | 25605.5 | 27905.07 |
用神经网络分类A和B,让A是mnist的0,让B为mnist的1-9,将收敛误差固定,统计迭代次数并排序,可以得到形态数轴。排序为
5 7 2 4 3 9 1 6 8
那这组排序是否取决于图片B的信息熵?答案应该否定的,
A | 5 | 7 | 2 | 4 | 3 | 9 | 1 | 6 | 8 |
0 | 5402.955 | 7822.01 | 8358.603 | 11983.15 | 12572.23 | 13346.79 | 23558.45 | 25605.5 | 27905.07 |
7 | 4 | 5 | 6 | 9 | 2 | 8 | 0 | 3 | |
1 | 9568.94 | 9577.513 | 10137.68 | 10241.39 | 10721.14 | 11792.54 | 16861 | 23558.45 | 35671.24 |
5 | 8 | 0 | 6 | 1 | 7 | 9 | 4 | 3 | |
2 | 7100.643 | 7658.015 | 8358.603 | 9360.106 | 11792.54 | 12555.62 | 13772.15 | 19984.86 | 33389.61 |
6 | 5 | 0 | 4 | 8 | 7 | 9 | 2 | 1 | |
3 | 8136.266 | 11703.08 | 12572.23 | 15199.52 | 17015.68 | 17331.39 | 19919.65 | 33389.61 | 35671.24 |
5 | 8 | 7 | 6 | 1 | 0 | 3 | 9 | 2 | |
4 | 5689.266 | 6106.347 | 7572.704 | 9020.96 | 9577.513 | 11983.15 | 15199.52 | 18523.66 | 19984.86 |
6 | 0 | 4 | 8 | 9 | 2 | 7 | 1 | 3 | |
5 | 5362.608 | 5402.955 | 5689.266 | 6116.397 | 6794.688 | 7100.643 | 8617.161 | 10137.68 | 11703.08 |
5 | 3 | 8 | 7 | 4 | 9 | 2 | 1 | 0 | |
6 | 5362.608 | 8136.266 | 8626.678 | 8983.447 | 9020.96 | 9044.211 | 9360.106 | 10241.39 | 25605.5 |
8 | 4 | 0 | 5 | 6 | 1 | 2 | 3 | 9 | |
7 | 7073.432 | 7572.704 | 7822.01 | 8617.161 | 8983.447 | 9568.94 | 12555.62 | 17331.39 | 20211.46 |
4 | 5 | 9 | 7 | 2 | 6 | 1 | 3 | 0 | |
8 | 6106.347 | 6116.397 | 6966.322 | 7073.432 | 7658.015 | 8626.678 | 16861 | 17015.68 | 27905.07 |
5 | 8 | 6 | 1 | 0 | 2 | 4 | 3 | 7 | |
9 | 6794.688 | 6966.322 | 9044.211 | 10721.14 | 13346.79 | 13772.15 | 18523.66 | 19919.65 | 20211.46 |
因为如果分类原点不是0而是其余的形态,则分类对象的排序完全不同。而单张图片的信息熵不可能因为分类原点的改变而改变。所以如何解释迭代次数排序与信息熵无关这个矛盾?
假设1:完全相同的两个对象无法被分成两类,与之对应的分类迭代次数为无穷大。
推论1:相等收敛误差下迭代次数越大表明二者差异越小。
按照迭代次数假设,迭代次数取决于分类原点和分类对象二者之间的差异。这是两个对象之间的相互作用,并不是个体行为。因此是分类原点和分类对象共同决定了迭代次数,而并不完全取决于分类对象,因此分类对象的信息熵与迭代次数差异无关。
单调性,即发生概率越高的事件,其所携带的信息熵越低
或者按照信息熵单调性的定义,比如如果两张图片越相似,单个像素的不确定性越小,对神经网络的输入来说这个形态发生的概率就越高,这两张图片作为一个整体的信息熵就越低。因此迭代次数与分类原点和分类对象作为一个整体的信息熵成反比。
因此迭代次数的倒数是分类对象和分类原点作为一个整体的信息熵的量度。