文章目录
深度学习的成功往往取决于大量的标注数据,在标注数据上训练的模型往往能取得与人类水平相当,甚至超越人类水平的表现。然而在许多情况下,很难收集到足够的有标注数据,这也促使研究人员开始探索标注数据之外的无监督信息,以在小数据的情况下在各类学习任务上训练出鲁棒的模型。
图 1 的左端代表用无标注数据训练的无监督方法。无监督方法旨在学习到能够泛化到不同任务的特征表示。通常用这些特征在后续分类任务中的表现作为特征的评价指标。图 1 的右端表示半监督方法,既利用标注数据,也利用无标注数据来训练模型。其想法在于未标注数据提供了数据在空间中的分布,并且可以通过探索这种分布来训练一个鲁棒的模型。
关于无标注数据
摘录自知乎:思考无标注数据的可用极限
无标注数据主要有以下几种(看起来比较work的)利用方法:
1、标了它,让它不再是无标注数据,然后开始supervised learning,用机器去标注是一个新的尝试方向
2、半监督学习 —— 这要求在target domain上已经有一部分有标注数据,且无标注数据跟这部分数据是同源,且有相同label space;
3、弱监督学习 —— 主要分为noisy supervision和high-level supervision,或者是两者的融合。前者主要是标注质量不高,后者是指标签比较abstract。这样的数据既可能是标出来的,