先讲hard-share. 言外之意就是来硬的。实际上两个参数的hard-share就退变成了一个参数。在实际计算过程中,我们就可以使用相同的参数进行计算。参数更新后也保持相同。
再说soft-share。实际上这才是真的两个不同参数,但是我们尽量保证两个参数很接近。为了使两个参数很接近,我们通常使用损失函数来做。如下图,其中
θ
t
\theta^t
θt 和
θ
t
′
\theta^{t'}
θt′就是我们想要共享的参数。