Efficient parametrization of multi-domain deep neural networks

emergency_rose

已于 2024-04-03 17:23:25 修改

阅读量840

点赞数 1

分类专栏： paper阅读笔记文章标签：人工智能

于 2019-08-12 20:59:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_30618203/article/details/99336511

版权

paper阅读笔记专栏收录该内容

51 篇文章 0 订阅

订阅专栏

常见的迁移学习任务

1、multi-task model

同时适用于多个task

2、multi-domain model

同时适用于多个domain

3、extensible model

模型可随时间进化，通过之前学习的知识来迁移到新的任务和domain上

创新

定义网络为；w是universal vector，固定且不同domain之间共享；α是parameter vector，为domain specific参数。其中，α要远小于w。如图（a）所示：

1、Series Residual Adapters

--->

2、Parallel Residual Adapters

*共同点：

1）当α为0时，恢复原网络，额外的参数失效

2）参数量相同

3）蓝色标记的BN均为task-specific

*不同点：

series adapter无法plug-and-play，原因（作者回答）：

We tried the series configuration in a plug and play configuration but the model did not train properly. I assume that inserting modules in series in a neural network hurts the backpropagation process whereas inserting these same modules seem to preserve good training properties. I do not have a clear reason why it works that way, it is just an observation.

*注意：

训练

1、Pretrain：1）series（include adapters）2）parallel（plug-and-play）

2、Freeze pre-trained model

3、Learn adaptation parameters

* dataset ⬆，weight decay⬇

解决N个任务，需要训出 1*主干 + (N-1)*adapter的参数

结论

1、parallel adapter 优于 series adapter

2、early + late layers都需要adapted

3、dropout对bigger pre-trained network有较大提升

4、deeper layers的adapter帮助最大（domain specific信息）

5、pretraining-network的category越多（如imagenet用1000类而不是100类），transfer的效果越好

Q & A（未解决）

数学推导部分

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Efficient parametrization of multi-domain deep neural networks

常见的迁移学习任务 1、multi-task model 同时适用于多个task 2、multi-domain model 同时适用于多个domain 3、extensible model 模型可随时间进化，通过之前学习的知识来迁移到新的任务和domain上创新定义网络为；w是universal v...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。