作一个二分类网络分类mnist的0和1,但用这个网络来分类其他对象,比如(0,2),(0,3),(0,4),实现参数迁移。这种操作是否有什么物理意义?
通过固定收敛标准多次测量取平均值的办法计算这个网络分类02,03,04的分类准确率,
得到表格
*01 | *01 | *01 | |
*02 | *03 | *04 | |
δ | 平均准确率p-ave | 平均准确率p-ave | 平均准确率p-ave |
0.5 | 0.512353 | 0.512121 | 0.506664 |
0.4 | 0.627911 | 0.603924 | 0.622176 |
0.3 | 0.673549 | 0.662784 | 0.654716 |
0.2 | 0.712676 | 0.68869 | 0.682039 |
0.1 | 0.692548 | 0.669001 | 0.651714 |
0.01 | 0.730491 | 0.713641 | 0.668127 |
0.001 | 0.723179 | 0.712227 | 0.64577 |
9.00E-04 | 0.718081 | 0.706366 | 0.63909 |
8.00E-04 | 0.71687 | 0.707 | 0.634211 |
7.00E-04 | 0.722214 | 0.714209 | 0.636247 |
6.00E-04 | 0.733733 | 0.726244 | 0.648851 |
5.00E-04 | 0.746641 | 0.745153 | 0.65918 |
4.00E-04 | 0.752255 | 0.753049 | 0.661081 |
3.00E-04 | 0.73962 | 0.738267 | 0.648764 |
2.00E-04 | 0.727032 | 0.702818 | 0.620956 |
1.00E-04 | 0.746646 | 0.743534 | 0.620877 |
9.00E-05 | 0.747875 | 0.745506 | 0.61798 |
8.00E-05 | 0.746586 | 0.744135 | 0.616631 |
7.00E-05 | 0.744785 | 0.745153 | 0.615163 |
6.00E-05 | 0.745402 | 0.747463 | 0.6092 |
5.00E-05 | 0.748634 | 0.75343 | 0.608076 |
4.00E-05 | 0.752413 | 0.758132 | 0.604534 |
3.00E-05 | 0.753641 | 0.744605 | 0.59986 |
2.00E-05 | 0.749476 | 0.730623 | 0.592132 |
1.00E-05 | 0.738791 | 0.68575 | 0.579265 |
把分类准确率画成图
平均分类准确率Pave 02>03>04
按照假设2:
对应不同的两个对象,迭代次数越大,二者的相对速度越大;相对速度越大分类准确率越大。
比如当收敛标准为1e-5的,02的分类准确率为0.738,04的分类准确率为0.579.按照假设2,可以得出02粒子对的相对速度>04粒子对的相对速度。
因为收敛标准是一样的,可以合理假设对这两个粒子对做的功是一样的。因此可以得出02粒子对的质量<04粒子对的质量。
也就是分类准确率越大粒子对质量越小。
因此可以假设网络(0,1)-81*10*2-(1,0)(0,1)构成的分类场形成了一个惯性系统,参数迁移相当于测量其他对象在这个惯性系统里的惯性质量。
就像不同质量的人在电梯里,当电梯上升时感受到的力应该是不同的。
从形态上看4和1最像,2和1的形态差异最大。因此4和1的波函数的等效交叉程度最大,所以粒子对02,03,04在01的惯性系中拥有的惯性质量顺序04>03>02.
或者至少用惯性质量解释参数迁移这件事是逻辑连贯的。