自步学习之SPLD

最新推荐文章于 2023-08-31 21:11:09 发布

ITOMG

最新推荐文章于 2023-08-31 21:11:09 发布

阅读量3.5k

点赞数

分类专栏： CVPR

本文链接：https://blog.csdn.net/ITOMG/article/details/78246695

版权

本文深入探讨自步学习（Self-paced Learning）及其多样性挑战，提出了SPLD模型，强调样本选择的多样性以避免欠拟合。SPLD通过引入负L2,1范数正则项优化样本选择，确保从多个数据分布中选取样本，同时解释了如何通过非凸优化方法解决这一问题。" 132751062,19694669,Python处理文本文件中的换行符转义,"['Python', '文本处理', '文件操作', '转义序列', '运维']

摘要由CSDN通过智能技术生成

1. 自步学习

自步学习的核心在于如何定义样本的“难易程度”，例如：对于已知模型，损失小或似然值高的样本可视为“简单”样本。但是传统的自步学习仅考虑了样本的难易程度，没有考虑到样本的多样性（diversity），这里所谓的多样性是指自步学习选择样本的差异性，多样性倾向于选择样本间相似度低、差异性大的样本集合。一般而言，样本数据是非均匀采样或者不连续的（异质数据），因此我们可以假设样本数据是服从多个数据分布的样本集合，在利用自步学习选择样本时我们自然不希望仅从服从某一数据分布形式的样本集合（同质数据）中选择样本，而需要尽可能的从各个数据分布中都选择到一定数量的样本，保证数据的多样性，同时防止自步学习选择同质样本带来的欠拟合问题。这里还用高考模拟题来举例，假设我们物理和化学两个学科中，化学掌握的最好，物理最差。当第一次做理科综合的高考模拟题时，如果化学试题答对的居多，物理所有题目都没有完全答对。在不考虑学科的多样性时，因为化学试题多被认为是简单样本，物理试题则认为是复杂样本，自步学习的过程可能会倾向于去追求学习化学而舍弃物理，在经过多次学习后，会导致化学试题完全答对，而物理都回答错误，造成学生的偏科。

综上所述，我们更希望学生自己在自学过程中，掌握所有学科知识，考上理想的大学。在机器学习的概念中，我们也是希望自步学习选择过程中可以考虑到样本的多样性，保证模型不会欠拟合。CMU博士生Lu Jiang（现Google Research Scientist）提出的self-paced Learning with Diversity (SPLD)的核心思想就是解决自