2024 ICLR Oral 泛读调研（一、关于深度学习训练技术）

本文链接：https://blog.csdn.net/miss_the_boat/article/details/137685764

调研阅读要求：
（1）先读要点：标题、摘要，随后直接跳到结论。
（2）实验结果：图、表、伪代码。
（3）对比角度：实验环境、数据集、测试方法、评估指标、对比算法和定性定量的效果。

1. “What Data Benefits My Classifier?” Enhancing Model Performance And Interpretability Through Influence-Based Data Selection

2. Candidate Label Set Pruning: A Data-Centric Perspective For Deep Partial-Label Learning

3. Infobatch: Lossless Training Speed Up By Unbi-Ased Dynamic Data Pruning

4. Less Is More: Fewer Interpretable Region Via Submodular Subset Selection

5. Neural Fine-Tuning Search For Few-Shot Learning

6. Quick-Tune: Quickly Learning Which Pre-Trained Model to Finetune And How

7. Small-Scale Proxies for Large-Scale Transformer Training Instabilities

1. “What Data Benefits My Classifier?” Enhancing Model Performance And Interpretability Through Influence-Based Data Selection

主要用于如何通过选择训练数据来提高机器学习模型的性能。

Institution：	加州大学戴维斯分校、布兰迪斯大学、GE HealthCare
Abstract：	分类模型广泛部署于社会之中，需要具备高效用性、公平性和稳健性。目前的研究努力主要集中在固定数据集上改进模型架构和学习算法以实现这一目标。相比之下，本文作者讨论了一个正交但至关重要的问题：给定一个固定的凸学习模型（或针对非凸模型的凸替代模型）和一个感兴趣的函数，作者通过解析特征空间来评估哪些数据对模型有益，然后旨在根据该函数来提高性能。为此，作者提出使用影响力估计模型来从数据特征空间的角度解释分类器的性能。此外，作者提出了基于影响力的数据选择方法，以增强模型的效用、公平性和稳健性。通过在合成和现实世界数据集上进行广泛的实验，作者验证并展示了作者的方法的有效性，不仅适用于常规的分类场景，还包括在更具挑战性的场景下，如分布偏移、公平性攻击、效用规避攻击、在线学习和主动学习。
Key Words:	分类模型、训练数据选择
Aim:	通过选择训练数据来提升分类模型在常规与复杂应用场景下的性能和稳定性。
Methods:	1. 作者提出使用影响力估计模型来从数据特征空间的角度解释分类器的性能。 2. 作者提出了基于影响力的数据选择方法，以增强模型的效用、公平性和稳健性。（针对监督模型的数据剪枝）
Pseudo code:	此算法通过使用决策树来解释数据样本及其特征如何正面或负面地影响分类器的性能。整个算法的目的是建立一个能够评估训练数据对分类器性能影响的模型。通过解释特征空间，这个模型能够指出对模型性能有正面或负面影响的数据点。这种方法特别适用于当作者希望理解模型性能背后的数据动态时。例如，在提升模型的效用、公平性和稳健性方面，这种方法可以帮助作者识别和选择更有益的数据点。这个算法通过移除对模型性能有负面影响的训练数据来优化分类器。该算法的目的是去除那些对模型性能负影响最大的样本，这样可以帮助提高模型的效用性、公平性和稳健性。这种方法假设作者可以通过影响力分析识别那些对模型负面影响最大的样本，并且在有限的预算内进行有效的数据修剪。
Experimental setting:	模型：常见的分类模型，MLP 常规分类数据集：表格数据集Adult、Bank，图像数据集CelebA，文本数据集Jigsaw Toxicity 高级应用场景（如分布偏移、公平性攻击、效用规避攻击、在线学习和主动学习）：分布偏移场景数据集：加利福尼亚州2014年、密歇根州2014、2018年的数据以下省略。。
Keyresults:	综合来看，这两个算法提供了一种系统性方法，不仅帮助理解和解释模型性能背后的数据动因，而且通过优化训练数据集，实现对模型性能的直接改进。这对于开发更准确、更公平、更可靠的机器学习模型至关重要。
Conclusion:	在本文中，作者扩展了影响函数，以评估哪些数据通过解释特征空间改进了给定的凸分类器（或非凸模型的替代物）的效用、公平性和鲁棒性。作者使用基于树的影响估计模型来解释哪些样本特征对模型的性能有积极或消极的贡献。作者还设计了一个数据选择策略来实现性能的改进。通过在合成数据集和真实数据集上的广泛实验，以及不同的应用程序设置，如中毒/逃避攻击、分布转移、在线和主动学习，作者展示了简单和通用的数据选择方法如何可以显著提高性能，并为从业者提供有价值的见解。
Code:	GitHub - anshuman23/InfDataSel

2. Candidate Label Set Pruning: A Data-Centric Perspective For Deep Partial-Label Learning

候选标签集修剪：一个面向深度部分标签学习的以数据为中心的视角

Institution：	电子科大、南洋理工
Abstract：	部分标签学习（PLL）允许每个训练示例配备一组候选标签，其中只有一个是真正的标签。现有的深度PLL研究侧重于以学习为中心的角度，设计各种消除标签歧义的训练策略，即从候选标签集中识别隐藏的真实标签。然而，当候选标签集的规模变得过大时，这些以学习为中心的策略将无法找到用于模型训练的真正标签，从而导致性能下降。这促使作者从以数据为中心的角度来思考，并开创了一个新的PLL相关任务，称为候选标签集剪枝（CLSP），该任务旨在以无训练的方式过滤出某些潜在的错误候选标签。为此，作者提出了第一个基于表示空间和候选标签空间之间的不一致性的CLSP方法。具体来说，对于一个训练实例的每个候选标签，如果它不是表示空间中实例最近邻居的候选标签，那么它有很高的概率成为一个假标签。基于这种直觉，作者采用了每个示例剪枝方案，过滤出特定比例的高概率错误候选标签。从理论上，证明了剪枝错误率的上界，并分析了表示的质量对所提方法的影响。根据经验，在基准模拟和真实世界的PLL数据集上进行的广泛实验验证了CLSP对显著改进许多最先进的深度PLL方法的巨大价值。
Key Words:	Partial-label learning (PLL) 、候选标签剪枝、
Aim:	CLSP的目标是在无需训练的情况下过滤掉一些可能是假的候选标签。
Methods:	提出基于表示空间和候选标签空间之间不一致性的CLSP方法。
Pseudo code:
Experimental setting:	实验数据集：（1）常见分类数据集：C10、C100、tiny-ImageNet （2）真实场景数据集PLL数据集： PASCAL VOC （3）长尾数据集：C10-LT,C100-LT 候选标签生成：生成候选标签的过程涉及不同类型的标签翻转概率模型：均匀生成。标签依赖（LD）生成。实例依赖（ID）生成。不同数据集（如CIFAR-10-LT, CIFAR-100-LT和Tiny-ImageNet）采用不同的概率q来生成这些标签，指示每个标签成为正确标签的可能性。对于标签依赖生成，将根据同一超类中的标签生成具有特定概率分布的层次化候选标签集。实例依赖生成则采用基于原始清洁标签的神经网络预测，并考虑标签级翻转概率，跟随先前的研究。评估指标：提出的CLSP（候选标签集剪枝）方法使用两个从定义1衍生的指标进行评估： α误差：值越小表现越好，指示较低的误差率。 β覆盖率：值越大表现越好，指示对真实标签的更高覆盖率。 F1分数也用于评估剪枝，精确度和召回率以α和β来定义。F1分数是精确度和召回率的调和平均，因此更高的F1分数表示更好的性能。特征提取器：研究考虑了基于ResNet-18架构的不同视觉特征提取器，包括： ResNet-S：使用传统的监督学习。 ResNet-SSL：利用自监督学习（在此背景下提到的SimCLR）。
Keyresults:	在理论上，作者证明了剪枝错误率的上界，并分析了表示质量如何影响所提出的方法。在实证上，通过在标准模拟和真实世界的PLL数据集上的广泛实验，验证了CLSP在显著提高许多最先进的深度PLL方法方面的巨大价值。这项工作可能为处理有噪声标签的学习问题提供了新的视角和解决方案，有助于提高深度学习模型在面对不完整标签数据时的鲁棒性和性能。
Conclusion:	在本文中，作者提出了一个新的与PLL相关的任务，称为候选标签集剪枝（CLSP），旨在减少PLL实例的候选标签集的大小。为此，作者提出了第一个CLSP方法，该方法基于表示空间中的k-NN实例的“否决”统计量来消除PLL实例的某些潜在的错误候选标签。从理论上讲，作者分析了表示质量和标签模糊度对剪枝误差上界的影响。根据经验，在基准模拟和真实PLL数据集上的大量实验验证了所提出的CLSP方法的优越性，从而显著提高了最先进的深度PLL方法。
Code:	https://github.com/salesforce/LAVIS https://github.com/facebookresearch/faiss https://github.com/google-research/simclr

3. Infobatch: Lossless Training Speed Up By Unbi-Ased Dynamic Data Pruning

Institution：	新加坡国立大学、Alibaba Group
Abstract：	数据剪枝的目的是以更低的总体成本获得无损性能。一种常见的方法是过滤掉对训练贡献较小的样本。这可能会导致相比于原始数据的梯度期望偏差。为了解决这一问题，作者提出了一种新的InfoBatch框架，旨在通过无偏动态数据剪枝来实现无损训练加速。具体来说，InfoBatch根据损失分布随机修剪部分信息量较少的样本，并重新调整剩余样本的梯度，以近似原始梯度。作为一个即插即用和架构无关的框架，InfoBatch在分类、语义分割、视觉相关和指令微调任务上持续获得无损训练结果。在CIFAR10/100、ImageNet- 1K和ADE20K上，信息batch可节省40%的总成本。对于MAE和扩散模型，InfoBatch可以分别可以节省24.8%和27%的成本。对于LLaMA指令的微调，结合InfoBatch和最近的共重置选择方法（DQ）可以实现10倍的加速。
Key Words:	数据剪枝、训练加速
Aim:	旨在通过无偏动态数据剪枝来实现无损训练加速。
Methods:	InfoBatch通过基于损失分布随机剪枝掉部分信息量较低的样本，并重新缩放剩余样本的梯度以逼近原始梯度。一、预备知识：二、无偏剪枝和梯度缩放三、退火
Pseudo code:	无
Experimental setting:	数据集：研究在多个数据集上验证了所提方法的有效性，包括CIFAR-10/100、ImageNet-1K、ADE20K以及FFHQ。实施细节：在未特别指定的情况下，InfoBatch默认使用的参数是r = 0.5和δ = 0.875。在分类任务中，使用ResNet18、ResNet-50、ViT-Base(MAE)和Swin-Tiny进行评估。在CIFAR-10/100和ImageNet-1K数据集上，所有模型均采用OneCycle调度器（余弦退火策略）和SGD/LARS优化器进行训练，动量为0.9，权重衰减为5e-4。所有图像都采用了常见的增强转换，比如归一化、随机裁剪和水平翻转。实现基于PyTorch和Timm库。语义分割任务：在ADE20K数据集上进行了语义分割任务的实验，所选网络是具有ResNet-50骨干网络的UperNet。遵循mmsegmentation的默认配置。
Keyresults:	InfoBatch在分类、语义分割、视觉相关和指令微调任务上一致性地获得了无损训练结果。在CIFAR10/100、ImageNet-1K和ADE20K上，InfoBatch无损地节省了40%的总体成本。对MAE和DDPM的相关训练，InfoBatch分别节省了24.8%和27%的成本。对于LLaMA指令微调，结合InfoBatch和最近的核心集选择方法（DQ）实现10倍的加速。
Conclusion:	结论：作者提出了InfoBatch，一个新的框架，以无损训练加速的无偏动态数据修剪。InfoBatch在各种任务和数据集上具有较强的鲁棒性，在分类、分割、视觉相关和指令微调方面实现了无损训练加速。与以前最先进的方法相比，InfoBatch至少减少了10倍的额外开销，因此在实际应用程序中非常实用。本文提供了广泛的实验和理论分析，希望能帮助这一领域的后续研究。限制和未来的工作。 1.去除样本可能会导致模型预测中的偏差。在将信息批处理应用于伦理敏感的数据集时，建议考虑这一限制。目前，作者还没有发现明显的偏见证据。如果作者有发现，作者将公开报告。 2.当前版本的InfoBatch依赖于多时代的训练方案。然而，GPT-3（Brown等人，2020年）和ViT-22B（Dehghani等人，2023年）通常在有限的时期进行训练。信息批处理可能需要对这些任务进行进一步的调整。作者将在未来探索这些任务的新策略。
Code:	GitHub - NUS-HPC-AI-Lab/InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning

4. Less Is More: Fewer Interpretable Region Via Submodular Subset Selection

图像归因算法是一类专门设计来解释和理解机器学习模型特别是深度学习模型在处理图像时的决策过程的工具。其核心目的是识别和突出显示对模型做出特定决策（例如图像分类或目标检测）起到关键作用的图像区域或特征。

图像归因算法的用途包括：

提高可解释性： 通过可视化展示模型决策的依据，帮助研究人员和最终用户理解模型的工作原理。

调试模型： 发现模型可能出现的错误，例如过度关注不相关的图像特征或背景噪声，从而可以对模型进行改进和调优。

增强信任： 在安全敏感或关键的应用领域，如医疗诊断、自动驾驶等领域，向用户展示模型是如何并且为何做出特定预测的，可以提高用户对模型预测的信任。

数据清洗： 帮助识别数据集中的错误标签或低质量数据。

法律和伦理遵从： 在某些法律管辖区，如欧盟的通用数据保护条例（GDPR），可能要求算法决策必须是可解释的。图像归因算法有助于满足这些要求。

研究和教育： 作为一个研究工具，帮助深入了解复杂模型在视觉认知方面的行为。同时，它也可以用作教育工具，帮助学生和新手更好地理解深度学习模型。

Institution：	中科院信工所、网络安全所、新加坡国立、中山大学
Abstract：	图像归因算法旨在识别与模型决策高度相关的重要区域。虽然现有的归因解决方案可以有效地赋予目标元素的重要性，但它们仍然面临以下挑战： 1)现有的归因方法产生不准确的小区域，从而误导正确归因的方向；2)模型不能对预测错误的样本产生良好的归因结果。为了解决上述挑战，本文将上述图像归因问题重新建模为一个子模块子集选择问题，旨在以更少的区域提高模型的可解释性。为了解决对局部区域缺乏关注的问题，作者构造了一个新的子模块函数来发现更准确的小解释区域。为了增强所有样本的归因效应，作者还对子区域的选择施加了四种不同的约束条件，即置信度、有效性、一致性和协作得分，以评估不同子集的重要性。此外，作者的理论分析证实了所提出的函数实际上是子模的。大量实验表明，该方法在两个人脸数据集（Celeb-A和VGG-Face2）和一个细粒度数据集（CUB-200-2011）上均优于SOTA方法。对于正确预测的样本，该方法提高了删除和插入分数，相对于HSIC-归因，平均增加量分别为4.9%和2.5%。对于未预测错误的样本，与HSIC-归因算法相比，作者的方法分别获得了81.0%和18.4%的收益。
Key Words:	图像归因算法、样本重要性预测
Aim:	本文将图像归因问题重新建模为一个子模块子集选择问题，目的是利用更少的区域增强模型的可解释性。
Methods:	为了关注局部区域的不足，文章构建了一个新颖的子模块函数，以发现更准确的小解释区域。一、区域划分二、子模块化功能设计为了增强所有样本的归因效果，文章还对子区域的选择施加了四种不同的约束：置信度、有效性、一致性和协作分数，以评估各个子集的重要性。三、贪婪搜索
Pseudo code:	略
Experimental setting:	数据集：人脸（Celeb-A和VGG-Face2）和细粒度数据集（CUB-200-2011）评价指标：
Keyresults:	略
Conclusion:	本文提出了一种新的方法，将归因问题重新定义为子模子集选择问题。为了解决对局部区域缺乏关注的问题，作者构造了一个新的子模块函数来发现更准确的细粒度解释区域。具体来说，在子区域上实现的四种不同的约束条件被一起制定，以评估不同子集的重要性，即置信度、有效性、一致性和协作得分。该方法在两个人脸数据集（Celeb-A和VGG-Face2）和一个细粒度数据集（CUB-200-2011）上都优于最先进的方法。实验结果表明，该方法可以提高正确预测样本的删除和插入分数。而对于错误预测的样本，作者的方法擅长于识别模型的决策错误背后的原因。
Code:	GitHub - RuoyuChen10/SMDL-Attribution: [ICLR 2024 Oral] Less is More: Fewer Interpretable Region via Submodular Subset Selection

5. Neural Fine-Tuning Search For Few-Shot Learning

Institution：	爱丁堡大学三星人工智能中心，剑桥大学
Abstract：	在少镜头识别中，需要一个在一组类上训练的分类器来快速适应和推广到一个不相交的、新的类集。为此，最近的研究表明，通过精心制作的适应架构进行微调的有效性。然而，这就提出了这样一个问题：如何设计最优的适应策略？在本文中，作者通过神经结构搜索（NAS）的角度来研究这个问题。给定一个预先训练好的神经网络，作者的算法会发现适配器的最佳排列，哪些层可以保持冻结，哪些层可以进行微调。作者将其应用于残差网络和视觉transform，并报告了Meta-Dataset和Meta-Album两种方法的最新性能。
Key Words:	小样本分类、神经架构搜索、进化算法
Aim:	微调神经网络参数，使得更加适应小样本分类任务。
Methods:	可用于小样本微调的超网结构，两段进化微调搜索机制。
Pseudo code:
Experimental setting:
Keyresults:	引入NAS方法到Few-shot领域，快速微调神经网络权重。
Conclusion:	在本文中，作者提出了NFTS，一个新的框架来发现基于梯度的少镜头学习的最优适应架构。NFTS在其搜索空间中包含了几个最近的强启发式自适应架构，作者表明，通过系统的架构搜索，它们都表现得更好，导致了一个新的最先进的元数据集和元专辑。在本文中，作者使用一个简单而粗糙的搜索空间来与之前的手工设计的适应策略进行比较，在未来的工作中，作者将扩展这个框架，包括更丰富的适应策略和更细粒度的搜索。
Code:	GitHub - peustr/nfts-public

6. Quick-Tune: Quickly Learning Which Pre-Trained Model to Finetune And How

快速调整：快速了解哪些预训练模型需要微调以及如何微调。

Institution：	弗莱堡大学
Abstract：	随着预训练模型数量的不断增加，机器学习从业者不断面临着使用哪个预训练模型，以及如何为一个新的数据集调整它的决定。在本文中，作者提出了一种联合搜索最优预训练模型和超参数的方法。作者的方法在一系列数据集上传递了关于许多具有多个超参数配置的预训练模型的性能的知识。为此，作者评估了超过20k个超参数配置，用于微调87个数据集上的24个预先训练过的图像分类模型，以生成一个大规模的元数据集。作者在这个元数据集的学习曲线上学习了一个灰盒性能预测器，并将其用于新数据集上的快速超参数优化。作者的经验证明，作者的结果方法可以快速选择一个准确的预训练模型为一个新的数据集及其最优超参数。为了便于再现性，作者开源代码，并发布作者的元数据集。
Key Words:	HPO、Meta-Learning、New Datasets
Aim:	解决在新数据集上如何挑选和选择神经网络超参数与模型的实际问题。
Methods:	作者遵循一种有效的贝叶斯优化策略来寻找最优管道，其风格类似于HPO中最近最先进的方法（维斯图巴和格拉博卡，2021b；维斯图巴等人，2022年）。在每次迭代中，作者的方法快速调优拟合了预测管道性能及其成本的估计器（详情请参见第4.2节）。然后，它使用一个采集函数（详见4.3节）来选择下一个配置，继续对增量的周期进行微调。最后，作者的方法将评估损失和运行时成本，并将其添加到历史记录中。重复此过程，直到达到时间预算为止。作者在算法1中形式化了这些步骤，其中作者使用验证损失作为性能指标。如第4.4节所述，通过从元学习的代理开始，加速了整个过程。 4.2性能和成本估算器 4.3对成本敏感的回收功能 4.4元学习性能和成本估计器
Pseudo code:
Experimental setting:
Keyresults:
Conclusion:	作者解决了在给定一个模型池时选择一个模型及其超参数的实际问题。作者的方法QuickTune利用了贝叶斯优化设置中的灰箱优化以及元学习的成本和性能预测器。作者演示了QuickTune在选择预训练过的模型方面优于常用的策略，例如使用单个模型、大型特征提取器或传统的HPO调优方法。此外，作者提出的经验证据表明，作者的方法优于大规模和最先进的transform骨干的计算机视觉。因此，QuickTune为选择和调整图像分类的预训练模型提供了一个实用和有效的替代方案。
Code:	GitHub - releaunifreiburg/QuickTune: [ICLR2024] Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How

7. Small-Scale Proxies for Large-Scale Transformer Training Instabilities

Institution：	Google DeepMind
Abstract：	训练过基于大型transform模型的团队报告了大规模训练不稳定性，而在小规模上使用相同的超参数训练时没有出现这些不稳定性。虽然造成这种不稳定的原因具有科学意义，但复制它们所需的资源数量使调查变得困难。在这项工作中，作者寻求在较小的尺度上再现和研究训练不稳定性的方法。首先，作者关注之前工作中描述的训练不稳定的两个来源：注意层中对数的增长（Dehghani等人，2023年）和输出对数与对数概率的发散（Chowdhery等人，2022年）。通过测量跨尺度的学习率和损失之间的关系，作者表明，在高学习率下训练时，这些不稳定性也出现在小模型中，而以前在大尺度上使用的缓解措施在这种机制中同样有效。这促使作者调查其他已知的优化器和模型干预措施在多大程度上影响了最终损失对学习率变化的敏感性。为此，作者研究了诸如热身、重量衰减和µParam（Yangetal.，2022）等方法，并结合技术来训练小模型，在学习率变化的数量级上实现类似的损失。最后，为了总结我们的探索，作者研究了两种情况，通过检查模型激活和梯度规范的尺度行为，在不稳定性出现之前可以预测它们。
Key Words:	transform大模型训练不稳定问题。
Aim:	预测transform训练不稳定问题。
Methods:	图1： Qk-layernorm（Dehghani等人，2023）能够在学习率（LR）变化的三个数量级上进行稳定的训练。（上）对于有N个参数的变压器，我们绘制了学习率对最终评价损失的影响。（下图）我们使用LR敏感性来总结顶部的图。LR敏感度测量当学习率变化三个数量级时对最小损失的预期偏差。qk-layer范数降低了LR灵敏度，但LR灵敏度仍随着模型尺度的增加而增加。
Pseudo code:
Experimental setting:	1. 在基于GPT-2上的模型进行测试
Keyresults:
Conclusion:
Code:	Paper under double-blind review