《Dropping Networks for Transfer Learning》这篇文章前面看了一小部分,综合之前看过的论文,个人有个感觉就是真正的国外学者的英语确实更难一些(读起来真的是费劲,笔者的渣渣英语水平被轰成渣)。
所以这里具体内容就不写了,就写一下结论部分。
结论一共是4条:
1.相对于Bagging神经网络或单神经网络而言,Dropping网络的模型平均特性显示出显著的优势,特别是当dropout比较高的时候(p=0.5),导致每个模型具有更高的多样性和特殊性。
2.转移的方法仅依赖于一个额外参数γ。另外,使用更高的衰减率γ(0.9 - -0.95)更适合于密切相关的任务。
3.按照与在线误差曲线拟合的平滑样条的斜率成比例减小γ,表现比任意阶跃变化或γ的固定速率更好(相当于静态硬参数集体迁移)
4.如果距离远的任务需要知识迁移,而负迁移的的可能影响没有处理的话可以忽视这部分知识。建议的加权方案考虑到了这一点,这反映在表3中,表明M + Q→S对比S + Q→M表现出最大的改善,与传递M + Q→S的表2中提出的替代方法相比表现比M→S差。
。。。就这样了,以后有机会再好好读读这篇文章。