- Big data features: 5V--volume, velocity, variety, value, veracity.
- Big data challenges:高维、multi-modal、complexity、privacy
目录
5. Semi-supervised learning半监督学习
1. Federated Learning 联邦学习
- Federated Learning:Server将model分散到各个用户user,clients利用本地数据训练后,将model上传回server,server综合各个model(e.g. 平均参数)后--> comprehensive model,不断迭代->用户->server,升级model。(保护用户数据隐私)
2. Active Learning 主动学习
- Active learning:不断预估unlabeled data的label,然后用全部数据training,再预估下一批unlabeled data的label,如此不断迭代,直到最后。(提升数据value,改善数据价值密度低的问题)
3. Transfer Learning 迁移学习
- Transfer learning: 主要利用source domain的数据训练模型,然后将model迁移到target domain数据上。根据target source数据是否有标签,transfer learning分为:
Model Adaptation指的是第一类fine-tuning transfer learning,given a small number of labeled samples in target domain, and abundant labeled samples in multiple source domain.
Reference: How transferable are features in deep neural networks? 2014, citation: 7925
4. 元学习 meta-learning
- 元学习(meta-learning, learning to learn)
Problem: 元学习可以有效的缓解大量调参和任务切换模型重新训练带来的计算成本问题
Solution: 元学习,meta-learning
在机器学习中,训练单位是一条数据,通过数据来对模型进行优化;数据可以分为训练集、测试集和验证集。在元学习中,训练单位分层级了,第一层训练单位是任务,也就是说,元学习中要准备许多任务来进行学习,第二层训练单位才是每个任务对应的数据。
训练任务中的每个任务的数据分为 训练集(Support set) 和测试集( Query set);Test Task 中数据分为训练集和测试集
5. Semi-supervised learning半监督学习
Semi-supervised learning和active learning都属于不完全监督(incomplete supervision)的一种,即只有训练集的一个子集(通常很小)是有标签的,其他数据集则没有标签。
Semisupervised learning包含纯半监督学习pure、直推学习(transductive learning)。直推式半监督中只包含有标签训练样本集,其他样本无标签。直推式半监督算法先将validation样本视为无标签样本,然后利用有标签样本训练模型,并在模型训练过程中预测无标签val_data,通过无监督指标nmi、ami、ari去挑选optimal parameters,然后再去预测test样本。