峡谷炼丹师-CSDN博客

原创【多任务学习3】Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners【CVPR 2023】

多任务学习 (MTL) 中的优化比单任务学习 (STL) 更具挑战性，因为来自不同任务的梯度可能是矛盾的。当任务相关时，在它们之间共享一些参数可能是有益的（合作）。然而，有些任务需要额外的参数，具有特定类型数据或歧视（专业化）的专业知识。为了解决 MTL 挑战，我们提出了 Mod-Squad，这是一种新模型，可模块化为专家组（“Squad”）。这种结构使我们能够将合作和专业化形式化为匹配专家和任务的过程。我们在单个模型的训练期间优化这个匹配过程。

2024-10-23 15:28:39 980

原创【分布式系统2】Distributed Deep Learning In Open Collaborations【2021 NIPS】

现代深度学习应用程序需要越来越多的计算来训练最先进的模型。为了解决这一需求，大公司和机构使用专用的高性能计算集群，其建设和维护既对环境昂贵又超出了大多数组织的预算。因此，一些研究方向成为一些大型工业甚至更少学术参与者的独家领域。为了缓解这种差异，较小的组可能会汇集他们的计算资源并运行有利于所有参与者的协作实验。这种范式被称为网格或志愿者计算（grid- or volunteer computing），在许多科学领域都取得了成功的应用。

2024-10-22 15:14:48 1647

原创【多任务学习3】 Multi-Task Dense Prediction via Mixture of Low-Rank Experts 【CVPR 2024】vivo

以前的基于专家混合的多任务密集预测方法（MoE）获得了出色的性能，但它们忽略了显式建模所有任务的全局关系的重要性。在本文中，我们提出了一种新的以解码器为中心的多任务密集预测方法，称为 Mixture-of-Low-Rank-Experts (MLORE)。为了对全局任务关系进行建模，MLoRE 向原始 MoE 结构添加了一个通用卷积路径，其中每个任务特征都可以通过这条路径进行显式参数共享。此外，为了控制专家数量增加带来的参数和计算成本，我们从 LoRA 中汲取灵感，提出利用专家网络中普通卷积的低秩格式。

2024-10-17 13:32:00 885

原创【专家系统1】Scaling Vision with Sparse Mixture of Experts 【NIPS2021】（Google）

稀疏门控混合专家网络 (MoE) 在自然语言处理中表现出出色的可扩展性。然而，在计算机视觉中，几乎所有性能网络都是“密集的”，也就是说，每个输入都由每个参数处理。我们提出了一个 Vision MoE (V-MoE)，它是 Vision Transformer 的稀疏版本，可扩展且与最大的密集网络竞争。在应用于图像识别时，V-MoE 与最先进的网络的性能相匹配，同时在推理时只需要不到一半的计算。

2024-10-16 14:40:47 796

原创【多任务学习2】Progressive Layered Extraction (PLE)【2020 recsys】

多任务学习 (MTL) 已成功应用于许多推荐应用。然而，由于现实世界推荐系统中的任务相关性复杂和竞争，MTL 模型经常遭受负迁移的性能退化。此外，通过跨 SOTA MTL 模型的广泛实验，我们观察到一个有趣的跷跷板现象，即通过损害其他一些任务的性能来提高一项任务的性能。为了解决这些问题，我们提出了一种具有新颖共享结构设计的渐进分层提取（PLE）模型。PLE 明确地分离共享组件和特定于任务的组件，并采用渐进式路由机制逐步提取和分离更深层次的语义知识，提高通用设置中跨任务的联合表示学习和信息路由的效率。

2024-10-15 14:12:14 1711

原创【多任务学习1】Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts【KNN18】

基于神经的多任务学习已成功应用于许多现实世界的大规模应用，例如推荐系统。例如，在电影推荐中，除了提供他们倾向于购买和观看的用户电影之外，该系统还可以针对之后喜欢电影的用户进行优化。通过多任务学习，我们的目标是构建一个同时学习这些多个目标和任务的单一模型。然而，常用的多任务模型的预测质量通常对任务之间的关系很敏感。因此，研究任务特定目标和任务间关系之间的建模权衡是很重要的。在这项工作中，我们提出了一种新颖的多任务学习方法，即多门专家混合 (MMoE)，它明确地学习从数据中建模任务关系。

2024-10-13 23:58:09 1932

原创 FedDAT: An Approach for Foundation Model Finetuning in Mu ti-Modal Heterogeneous Federated Learning

最近，基础模型在多模态学习方面表现出显着的进步。这些模型配备了数百万个（或数十亿个）参数，通常需要大量数据进行微调。然而，由于不同的隐私法规，从不同部门收集和集中训练数据变得具有挑战性。联邦学习 (FL) 作为一种有前途的解决方案出现，使多个客户端能够在不集中本地数据的情况下协同训练神经网络。为了减轻客户端计算负担和通信开销，以前的工作已经调整了 FL 的参数高效微调 (PEFT) 方法。因此，在联邦通信过程中，只有一小部分模型参数被优化和通信。然而，以往的研究大多集中在单一模态上，而忽略了一种常见的现象，

2024-06-02 20:39:22 809

原创【2024 CVPR】联邦学习+提示学习：DiPrompT论文阅读笔记

联邦学习 (FL) 已成为从分散数据中学习的强大范式，联邦域泛化进一步考虑分散训练数据（源域）中不存在测试数据集（目标域）。然而，大多数现有的 FL 方法都假设在训练期间提供域标签，并且它们的评估对域的数量施加了明确的约束，必须严格匹配客户端的数量。由于现实世界中大量边缘设备的利用不足和额外的跨客户端域注释，这种限制可能不切实际，并涉及潜在的隐私泄露。在本文中，我们提出了一种高效且新颖的方法，称为解开提示调整 (DiPrompT)，这是一种通过学习自适应提示以分布式方式进行域泛化来解决上述限制的方法。

2024-05-30 18:04:46 641 1

cd_passed_away的博客