前面得到的权重分布规则
按列分布,正负对称,
A0列或B0列高度比较突出,且A0列或B0列彼此之间正负关系相反
重合1列的高度较小,重合0列没有变化
如果用神经网络分类0-k的A和B,按照权重规则知道,一定是第0列比较突出,而第1,2,3相对不明显。并且正负对称。
同样如果分类1-k,可以知道一定是第1列权重比较突出,第0,2,3列相对不明显。
但如果分类
(AB, C)---4*5*2---(1, 0)(0, 1)
一个测试集中有A和B两张图片,另一个测试集中只有一张图片C.用神经网络分类AB和C,在相同收敛误差下得到的权重是什么样的?
可以看到是第0,1列比较突出,按照移位假设,对这个网络当用A和C训练时相当于完成了由A和C之间的相互移位,当用B和C训练时相当于完成了由B和C之间的相互的移位。因此对网络(AB, C)---4*5*2---(1, 0)(0, 1),事实上相当于同时完成了A和C与B和C的相互移位。
所以此时的网络的权重是
(A, C)---4*5*2---(1, 0)(0, 1)
(B, C)---4*5*2---(1, 0)(0, 1)
两种状态的叠加态,这可以解释为什么(AB, C)---4*5*2---(1, 0)(0, 1)的收敛权重看起来像
(A, C)---4*5*2---(1, 0)(0, 1)
(B, C)---4*5*2---(1, 0)(0, 1)
两个网络收敛权重的组合。
现在再用网络分类01-k,可以推测收敛权重一定是第0,1列比较突出。
现在分类
(AB, C)---4*5*2---(1, 0)(0, 1)
这依然是一个二分类网络,只不过一个训练集有两张图片A和B,另一个训练集只有一张图片C。
这个网络的收敛权重
这个图片中只有第0列比较明显,而第1列甚至还没有第2,3列突出。
A | B | C | |
1 | 0 | 0 | 1 |
2 | 0 | 1 | 1 |
3 | 1 | 1 | 1 |
当C全是1的情况下,权重只有3种可能。0-1-k的情况只有第2和第3种权重,第0,1列是第2种权重,第2,3列是第3种权重。而01-0-k的情况有全部的3种权重,第0列是第1种权重,第1列是第2种权重,而第2,3列是第3种权重。
因此权重种类和数量的不同使得两个网络产生了不同的叠加规则,合理猜测权重种类和数量的不同也导致了两个网络迭代次数的差异。