一、 引子
记得19年还在做基于乳腺钼靶的乳腺癌AI诊断时,当时需要医生配合做大量的标注才能实现有效的监督学习,即便是现在也是如此。曾和一位经验丰富的师姐(某医院的影像科主任, 乳腺肿瘤方向)探讨人工智能的未来发展,有两个印象深刻的点:
1. 有没有可能AI可以自己知道哪些是自己不知道的,从而提出来让医生来标注?现有的AI模型训练是只能认识已经标注的类别的,这也是新冠肺炎初期很多AI模型无法识别这种新病的原因。
2. AI能不能自己随着看到的数据越来越多和医生的反馈来不断的提高性能?也就是说AI是否具有终生学习和自进化的能力。
二、 技术发展与现状
这两个问题一直在脑海中萦绕,其解决方案从目前来看已是十分乐观的。近期发现这些方向事实上已经形成了一个很大的研究方向:Incremental Learning,对于解决上述两个问题还是非常promising的。现把相关的研究总结梳理一下,和大家分享。
2.0 自监督和无监督学习
要说增量学习,还是要从无监督学习说起。自监督和无监督学习中,其核心思想是在latent space中对特征进行聚类分析,并根据聚类结果再进行无标签的分类或者学习,这一点也是增量式学习的基础。这里有几个影响力较大的研究:
2.0.1 Unsupervised Deep Embedding for Clustering Analysis
通过一个自编码器来进行深层特征的聚类分析。