迁移学习&模型融合专题
疫情期间网民情绪识别赛题背景——多模态(文本、图片、视频)分类任务
比赛地址:https://www.datafountain.cn/competitions/423/datasets
迁移学习 transfer learning
定义
定义:通过减少源域到目标域的分布差异,进行知识迁移,从而实现数据标注工作。
解释定义:一种标注工作:为了减少源域、目标域间的数据差异,将其放入相同特征空间进行学习。
定义理解:
传统机器学习/深度学习:数据分布同分布。
综述
归纳式迁移学习
直推式迁移学习:领域自适应。任务一致,数据不一致。
无监督迁移学习
如果源域和目标域中,源域是文本,目标域是图片,我们可以找一个中间域,将多部迁移划分为单部迁移one-step。
单部迁移one-step又分为:同构DA问题和异构DA问题。
同构DA问题:数据空间一致,数据分布不一致。(都是文本,一个黑白图片、一个彩色图片)。分为有监督、半监督、无监督DA问题。
领域自适应
特征自适应(很有效),源域和目标域共享某种特征,将源域和目标域提取到对应的共同空间,距离就会越近,目标域性能会提升。
领域自适应中有监督问题是子问题。数据空间一致,数据分布不一致。学习共同空间,进行知识迁移。
因为深度网络在浅层学习内容具体,深层学习的内容抽象。网络已经具备提取基础特征和抽象特征的能力时,fine-tune:学习了特定任务的特征,有效。
Bert
Bert预训练任务:
MLM: masked language model
Next Sentence Prediction
Bert是12层网络结构:
- Inputs:文字转成ID对应的输入。
- 经过Embedding后➕位置的Encoding(Bert是采用Attention机制,没办法获得句子原始的序列)——得到I
- 进入网络:多头Attention,原始的输入I,经过Dense层,分别输出Key、Query、Value。I加在其中做残差网络,再经过Batch Norm层。反馈神经网络进行非线性学习,和原来输入结合做残差,再经过Batch Norm层。
半监督DA问题
半监督DA问题
通过减小源域和目标域分布差异,实现域的自适应。
模型融合
投票也可以预测的概率结果做平均。
交叉验证:抽取的数据固定下来,将数据加权平均。
训练:对于N个模型“五折”:每个模型分成五份的数据,用其他四份数据预测一份数据,得到预测结果。得到了N个feature进行逻辑回归得到模型。