深度学习中的MTL效果为什么会好

最新推荐文章于 2024-09-10 13:23:41 发布

qq_23150675

最新推荐文章于 2024-09-10 13:23:41 发布

阅读量1.7k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23150675/article/details/79569770

版权

对MTL的分析可以从两个角度进行，第一个是feature representation共享，第二个是regularization。

1、特征共享。人们发现神经网络有很强的特征表达能力，其提取出的特征虽然维度不高但是能包含丰富的信息，这来自于神经网络强大的特征提取和表达能力吗，其提取的特征远强于人hand-crafted的特征，包含了更加高效线性可分的特征。这就给MTL在神经网络中的应用提供了潜力，多个任务共享特征从而最大化对特征的利用率，将神经网络feature representation的潜力最大化释放出来。

2、正则化。神经网络具有很强的泛化性。在机器学习中，泛化性越好的模型性能越稳定。神经网络的泛化性来自于其训练中会见到大量的数据以及正则化项的共同作用。而MTL要求神经网络学到更加泛化的特征，MTL的多个任务的loss组合在一起会起到很强的抑制过拟合的作用。一个具象的例子是，如果一个神经网络在某几个样本上的分类效果过于出色一定会导致其在其它任务上的效果下降，这就是没有免费的午餐定理，随着任务个数的增加，神经网络的loss会强迫神经网络的权值朝着更强的泛化性上变化。

note：MTL对于单个任务的效果既有可能提高也有可能破坏，这取决于所有任务之间的关联度。关联度大于一定阈值的情况下，MTL会提升所有任务的性能，但如果关联度小于某个阈值，则会导致所有任务的效果下降。MTL训练中有许多trick，例如同时训练、轮转着训练，各种对loss weight的精巧控制（当然最好保证所有任务的loss都差不多大）。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。