自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(142)
  • 收藏
  • 关注

原创 Model Fusion of Heterogeneous Neural Networks via Cross-Layer Alignment论文阅读

本文是针对异构的网络融合技术,是基于上一篇OTFusion的论文进行的工作,解决了神经元关联问题。当所有的网络都具有相同的架构时,OTFusion比普通平均算法有明显的改进。与其他基于平均的模型融合方法相比,OTFusion的一个优点是,由于最优传输的性质,它可以融合不同宽度(即神经元数量)的网络。然而,OTFusion仍然是一种分层的方法,不能直接用于异构神经网络。我们需要找到两个对应的层,在平均权重矩阵之前匹配它们的神经元。这一计划面临两个挑战。首先,层与层之间的一对一映射无法提前实现。

2022-11-21 22:13:03 576 2

原创 Model Fusion via Optimal Transport论文阅读+代码解析

最近2023ICLR中的一篇论文被曝抄袭一事,而进行举报的作者就是本次要将的论文的作者之一,可以发现本篇论文的工作是非常不错的。本篇论文也是第一个从最优运输地角度考虑模型之间地融合技术,通过排列神经元而达到更好地效果。而且在本文中只要保证两个网络深度一样,那么两个网络就能够很好地融合。

2022-11-21 13:58:31 1404

原创 Learning Student-Friendly Teacher Networks for Knowledge Distillation论文阅读

知识蒸馏是一种著名的技术,用于学习具有竞争性精度的紧凑深度神经网络模型,其中较小的网络(学生)被训练来模拟较大网络(教师)的表示。知识蒸馏的普及主要是由于它的简单性和通用性;根据教师学习学生模型是很简单的,并且对两个模型的网络架构没有限制。大多数方法的主要目标是在预先定义和预先训练的教师网络下,如何有效地将暗知识转移到学生模型中。虽然知识蒸馏是一种很有前途和方便的方法,但它在准确性方面有时不能达到令人满意的性能。这在一定程度上是由于学生的模型能力相对于教师的模型能力过于有限,知识蒸馏算法是次优的。

2022-10-30 17:39:27 692

原创 Data-Free Learning of Student Networks论文阅读+代码解析

知识蒸馏能使得小模型获取到大模型的相关信息从而达到更好地效果,目前已经被广泛应用于模型压缩的工作。然而,对于没有训练数据的深度模型的压缩,只有少数的研究被提出。在本文中提出了一个新的框架来压缩深度神经网络而不需要原始的训练数据集。具体而言,将给定的重神经网络视为一个固定的鉴别器。然后,通过对抗性过程中从网络中提取信息,建立生成网络交替原始训练集,可用于学习性能可接受的小型网络。本次论文还是非常有趣的,利用教师网络训练学生网络以及图像生成网络。

2022-10-29 21:53:14 527

原创 Decoupled Knowledge Distillation论文阅读+代码解析

知识蒸馏(KD)的通过最小化师生预测对数之间的KL-Divergence来传递知识(下图a)。目前大部分的研究注意力都被吸引到从中间层的深层特征中提取知识。与基于logit的精馏方法相比,特征精馏在各种任务中都具有优越的性能,因此对logit精馏的研究很少。然而,基于特征的方法的训练成本并不令人满意,因为在训练期间,为了提取深度特征,引入了额外的计算和存储使用(例如,网络模块和复杂的操作)。Logit蒸馏需要边际计算和存储成本,但性能较差。

2022-10-28 16:32:24 1280

原创 Knowledge Distillation with the Reused Teacher Classifier论文阅读+代码解析

给定一个具有大量参数的强大教师模型,知识蒸馏(KD)的目标是帮助另一个参数化较少的学生模型获得与较大的教师模型相似的泛化能力。实现这一目标的一种直接方法是在给定相同输入的情况下对齐它们的logits或类预测。由于KD技术概念简单,实用有效,在各种应用中都取得了巨大的成功。在知识蒸馏中,学生模型和教师模型的差距成为一项关键性的挑战。在本文中,我们提出了一个简单的知识蒸馏技术,并证明它可以显著弥合教师和学生模型之间的性能差距,而不需要详细的知识表示。我们提出的“SimKD”技术如下图所示。

2022-10-27 22:26:07 670

原创 Data-Free Knowledge Distillation for Heterogeneous Federated Learning论文阅读+代码解析

联邦学习具有广阔的应用前景,但面临着来自数据异构的挑战,因为在现实世界中用户数据均为Non-IID分布的。在这样的情况下,传统的联邦学习算法可能会导致无法收敛到各个客户端的数据。在本文中,我们提出了一个基于无数据的知识蒸馏算法——FEDGEN。具体来说,FEDGEN学习一个仅从用户模型的预测规则派生的生成模型,给定一个目标标签,可以生成与用户预测集合一致的特征表示。该生成器随后广播给用户,在潜在空间上护送他们的模型训练与增强样本,这体现了来自其他同行用户的蒸馏知识。

2022-10-25 16:56:41 2339 6

原创 Fine-tuning Global Model via Data-Free Knowledge Distillation for Non-IID Federated Learning论文阅读

本文其实是利用Data-Free的知识蒸馏到联邦学习中,Data-Free旨在利用数据生成的方式(GAN)去不断地训练学生网络,而本文则是将微调的方式去处理聚合的过程。利用生成的样本不断地训练全局模型,同时再利用设定的各种损失去训练样本生成器,达到一种对抗的程度,从而获得更好的效果。代码目前还没找到,找到了我会更新上来。

2022-10-23 18:29:45 1179 3

原创 Similarity-Preserving Knowledge Distillation论文阅读

知识蒸馏是一种用于监督“学生”神经网络训练的通用技术,它通过捕获和转移训练过的“教师”网络的知识来实现。虽然最初的动机是为了资源高效深度学习的神经网络压缩任务,但知识蒸馏已经在特权学习、对抗性防御[25]和噪声数据学习[19]等领域找到了更广泛的应用。知识蒸馏在概念上很简单:它通过额外的蒸馏损失来指导学生网络的训练,从而鼓励学生模仿教师网络的某些方面。直观地看,经过训练的教师网络比单独的数据监督(如标注的课堂标签)提供了更丰富的监督信号。

2022-10-18 23:24:40 571 1

原创 Resource-aware Federated Learning using Knowledge Extraction and Multi-model Fusion论文阅读+代码解析

联邦学习(FL)已成为一种新的机器学习范式,用于分布式客户端参与集中式模型的协作训练。FL将模型异步培训引入边缘,设备(如手机和物联网设备)提取关于私有敏感培训数据的知识,然后将学习到的模型上传到云端进行聚合。FL在本地存储用户数据,并限制从云服务器直接访问;因此,这种模式不仅增强了隐私保护,而且引入了一些固有的优点,包括模型准确性、成本效率和多样性。随着当今机器学习模型对数据的巨大需求和人工智能的社会考量(安全性和隐私性)联合学习在权衡这一权衡方面具有巨大的潜力和作用。

2022-10-16 17:37:34 398 1

原创 Conditional Channel Gated Networks for Task-Aware Continual Learning论文阅读+代码解析

机器学习和深度学习模型通常是离线训练的,然而,当在现实环境中进行在线培训时,模型可能会遇到多个任务作为一个连续的活动流,而不知道它们之间的关系或持续时间。在这种情况下,深度学习模型会遭受灾难性遗忘,这意味着它们会丢弃以前获得的知识,以适应当前的观察结果。导致这样的根本原因是,在学习新任务时,模型会覆盖对以前任务至关重要的参数。持续学习研究(也称为终身学习或增量学习)解决了上述问题。大多数文献中所考虑的典型环境是一个模型逐个学习不相交的分类问题。

2022-10-14 23:26:18 540 1

原创 Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference论文阅读+代码解析

目前现有的工作主要集中在提高多任务性能或减少多任务(MTL)模型中的参数和计算数量。本文采用了不同的方法,明确解决了MTL中的增量学习和任务干扰问题。我们表明,这两个问题都可以简单地通过重新参数化神经网络的卷积运算来解决。特别是,基于任务条件MTL方向,我们建议将每个卷积分解为一个共享部分,该共享部分充当编码公共知识的滤波器组,以及为每个任务唯一地适应该公共知识的任务特定调制器。与现有作品不同,共享部分不可训练,无法明确避免负迁移。

2022-10-12 10:42:02 928 1

原创 Incremental Learning Through Deep Adaptation论文阅读+代码解析

但通常情况下,仍然需要为每个新任务训练一个单独的模型。考虑到两个形式或性质完全不同的任务,例如预测一系列单词中的下一个单词和预测图像中对象的类别,很显然,每个任务都需要不同的架构或计算。一个更受限制的场景,学习一种在几个相关领域都能很好工作的表示,这种情况称为多域学习(MDL),以将其与多任务学习(在同一域上执行不同的任务)区别开来。使用相同的计算通道需要为不同的域增加参数避免灾难性遗忘逐步学习本文为每个任务增加了新的模型参数,并且每个任务的都具有自己独特的任务参数。

2022-10-11 14:34:05 919 1

原创 Learn to Grow: A Continual Structure Learning Framework for Overcoming Catastrophic Forgetting论文阅读

在学习一系列学习任务时,DNN会经历所谓的“灾难性遗忘”问题,在接受新任务训练后,它们通常会“忘记”以前学习过的任务。在本文中,提出了一个从学习到成长的框架,它明确地将模型结构的学习与模型参数的估计分离开来。搜索结构后,然后估计模型参数。我们发现:1)明确的持续结构学习可以更有效地利用任务之间的参数,从而为不同的任务带来更好的性能和合理的结构;2) 与具有相似模型复杂度的其他基线方法相比,将结构和参数学习分离可以显著减少灾难性遗忘。考虑一个序列的NNN个任务,表示为T=T=(T1,T。

2022-10-09 23:35:51 321 1

原创 Progressive Neural Networks 论文阅读+代码解析

本文介绍了渐进式网络,这是一种新的模型体系结构,明确支持跨任务序列的传输。虽然微调仅在初始化时包含先验知识,但渐进式网络在整个训练过程中保留预处理模型,并从中学习横向连接,以提取新任务的有用特征。通过以这种方式组合先前学习的特征,渐进式网络实现了更丰富的组合性,其中先前的知识不再是瞬时的,可以在特征层次的每一层进行集成。此外,在预处理网络旁边添加新容量,使这些模型具有重用旧计算和学习新计算的灵活性。正如我们将要展示的,进步的网络自然会积累经验,并且不会因设计而产生灾难性的遗忘。

2022-10-08 17:16:27 1728 2

原创 持续学习相关文章汇总

本博客包括了最近阅读的持续学习相关论文,会持续更新。

2022-10-07 22:24:55 540

原创 LIFELONG LEARNING WITH DYNAMICALLY EXPANDABLE NETWORKS论文阅读+代码解析

终身学习(持续学习),即任务按顺序到达的持续学习问题,是迁移学习中的一个重要主题。终身学习的主要目标是利用早期任务中的知识,以获得更好的性能,或加快后期任务模型的收敛速度。虽然有许多不同的方法来解决这个问题,但我们考虑在深度学习下的终身学习,以利用深度神经网络的能力。幸运的是,对于深度学习,可以通过学习的网络权重直接存储和传输知识。学习的权重可以作为现有任务的知识,而新任务可以通过简单地共享这些权重来利用这些知识。本文提出了一种新的深度网络模型以及一种高效的增量学习算法,称之为动态可扩展网络(DEN)

2022-10-07 22:01:43 1361 1

原创 NISPA: Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Networks 论文阅读

目前,神经网络在应对不断到来的数据/任务时会出现严重的灾难性遗忘,与此形成鲜明对比的是,随着时间的推移,动物擅长学习和记忆他们遇到的许多不同任务。至少到目前为止,大脑是在复杂环境中成功进行持续学习的唯一现有系统。这突出了审查大脑结构和功能基本事实的重要性,并建议设计神经激励机制来缓解持续学习中的遗忘问题。下面针对大脑的记忆方式进行分析。与DNN密集且高度纠缠的连接性容易受到干扰形成对比,大脑依赖于稀疏连接,其中只有少数神经元对任何给定刺激作出反应。

2022-10-02 00:07:40 380 1

原创 ONLINE CORESET SELECTION FOR REHEARSAL-BASED CONTINUAL LEARNING 论文阅读+代码解析

在持续学习中为了应对灾难性遗忘,常见的方法有基于正则化、基于记忆重塑以及基于动态架构。其中基于记忆重塑能通过保存少量旧样本而达到一个很好的准确率,因此被广泛地使用。

2022-09-27 22:48:44 1048 1

原创 Forget-free Continual Learning with Winning Subnetworks论文阅读+代码解析

持续学习又被称为增量式学习,要求不断地接受数据样本并且不会产生灾难性遗忘。最广泛的3种类型为:基于正则化的持续学习,基于记忆重塑的持续学习以及基于动态架构的持续学习。然而,上述的方法都会造成新的内存压力,特别是对于记忆重塑和动态架构。因此,现在又产生了一种基于修建的方法,如下:可以发现这些方法(a-c)都将模型进行了一些切分,让每个任务有对应的网络进行训练。本文中,作者运用了彩票假设(Lottery Ticket Hypothesis),为每一个任务考虑一个子模型进行训练。

2022-09-26 22:53:07 644 1

原创 E2-AEN: End-to-End Incremental Learning with Adaptively Expandable Network

持续学习致力于以增量方式学习新的数据或任务,并且不会出现灾难性遗忘。最早的方法考虑了机遇正则化的策略(如EWC),其通过考虑网络中的重要权重来保存旧知识,但这种方法会使得这些权重无法处理好新的任务。第二种方法是基于记忆重放(GEM),通过保存一部分旧的样再之后配合新样本一起训练,然而如果后续任务的不相关,则模型会陷入stability-plasticity(稳定性-可塑性)问题。

2022-09-25 21:53:25 1350

原创 Personalized Cross-Silo Federated Learning on Non-IID Data 论文解析

针对最新论文Personalized Cross-Silo Federated Learning on Non-IID Data 进行详细解读,方便大家理解该文。

2022-03-02 16:53:21 1218

原创 Personalized Federated Learning with Exact Stochastic Gradient Descent 论文阅读

对个性化联邦学习论文的探究

2022-02-28 17:28:44 432

原创 Personalized Federated Learning with Moreau Envelopes论文阅读+代码解析

(好久没更新文章啦,现在开学继续肝)论文地址点这里一. 介绍尽管FL具有数据隐私和减少通信的优势,但它面临着影响其性能和收敛速度的主要挑战:统计多样性,这意味着客户之间的数据分布是不同的(即非i.i.d.)。因此,使用这些非i.i.d.数据训练的全局模型很难在每个客户的数据上得到很好的推广。因此,个性化联邦学习在改变传统追求全局一个较好模型做到了平衡——全局与局部的调整,以适应本地数据集。二. 相关工作个性化联邦学习有:混合模型,情景化,元学习和多任务学习。(论文介绍了很多相关论文,在这里不加以赘

2022-02-27 18:45:36 2198 5

原创 CONTINUAL LOCAL TRAINING FOR BETTER INITIALIZATION OF FEDERATED MODELS 论文解读+代码分析

论文地址点这里一. 介绍本篇文章的介绍和之前的持续学习、联邦学习类似,就不赘述。作者提出的为局部持续训练的联邦学习来缓解权值的发散,并将不同的局部客户端的知识不断整合到全局模型中,保证了全局模型具有更好的泛化能力。全局模型参数的重要性权重在中央服务器上的一个小的代理数据集上进行评估,然后用于约束本地训练。通过这种方式,联邦模型能够在保持其原始性能的同时学习客户端的知识。二. 方法FedCL通过参数正则化持续训练处理全球模型中发生变化的重要参数。FedCL通过在服务器估算代理数据集的重要性权重,然后

2022-01-03 19:42:22 714

原创 Federated Reconnaissance: Efficient, Distributed, Class-Incremental Learning 论文阅读+代码解析

论文地址点这里一. 介绍论文中,作者提出了联合侦察,这是一类新的学习问题,分布式模型应该能够独立地学习新的概念,并有效地共享这些知识。通常在联合学习中,单个静态类集由每个客户端学习。相反,联邦侦察要求每个客户机可以单独学习一组不断增长的类,并与其他客户机有效地交流之前观察到的和新的类的知识。这种关于学习类的交流可以从客户那里获得知识;然后期望最终合并的模型支持每个客户机已公开的类的超集。然后可以将合并的模型部署回客户端进行进一步的学习。1.1 早期的工作持续学习: 不断学习新概念是一个开放的和长期的

2022-01-02 22:12:36 1952

原创 Non-IID data and Continual Learning processes in Federated Learning: A long road ahead 论文阅读

论文地址点这里今天来看一篇在实际背景下,联邦学习和持续学习的意义以及针对于数据异构问题的相关分析。一. 介绍人们日常生活主要的计算机器是智能手机和平板电脑,这些设备手机了很多有用的数据。易于用于训练简化日常使用的个性化算法。在这种情况下,仅在一个设备中记录的数据量可能不足以获得执行所需任务的精确模型。为了解决这个问题,过去的几年内,联邦学习被开发出来。这种新的学习策略基于多个协调设备的数据以分散的方式训练一个联合模型,并取得令人印象深刻的结果。然而,存在于手机中的设备大多具有异构性,这也是联邦学习过

2022-01-01 16:50:42 830

原创 Exploiting Shared Representations for Personalized Federated Learning 论文笔记+代码解读

论文地址点这里一. 介绍联邦学习中由于各个客户端上数据异构问题,导致全局训练模型无法适应每一个客户端的要求。作者通过利用客户端之间的共同代表来解决这个问题。具体来说,将数据异构的联邦学习问题视为并行学习任务,这些任务之间可能存在一些共同的结构,作者的目标是学习和利用这种共同的表示来提高每个客户端的模型质量,基于此提出了FedRep(联邦表示学习)。FedRep: 联邦表示学习利用跨客户机的存储的所有数据,使用基于梯度的更新来学习全局低维表示。此外,使得每个客户端能够计算一个个性化的、低维的分类器,负责

2021-12-20 22:47:30 2277

原创 Formalizing the Generalization-Forgetting Trade-Off in Continual Learning 论文阅读+代码解析

论文地址点这里一. 介绍在持续学习中,通过逐步适应一个模型来学习顺序观察到的任务。其有两个主要的目标:保持长期的记忆和不断学习新的知识。而这也就是稳定-可塑性的困境,而持续学习也就是想方设法再这两个之间寻求一种平衡。传统的CL方法要么最小化灾难性遗忘,要么提高快速泛化,而并没有进行同时的考虑。常见的可以分为三类:(1)动态的网络结构,(2)正则化方式,(3)记忆重放即情景再现方式。而解决泛化问题的有包括表示学习的方式(例如元学习)。这些传统的CL方式仅仅只是最小化了一个损失函数,但没有明确地考虑他们

2021-12-19 17:19:29 413 2

原创 Mitigating Forgetting in Online Continual Learning with Neuron Calibration 论文解析+代码阅读

论文地址点这里这一篇是百度研究的一篇文章一. 介绍为了应对灾难性遗忘,本篇文章专注于基于重放的方式(例如我们之前讲过的GEM和MEGA两篇)。允许模型对过去任务的数据进行有限访问,从而排练过去去的经验。然而基于重放的方式容易导致数据不平衡问题,也就是稳定-可塑性困境。一方面,模型可能受到过去知识的影响从而无法迅速学习到新知识,另一方面,过去的知识可能在学习中慢慢消失。在本文中,作者从全新的角度解决这个问题,即通过神经元校准寻求稳定性和可塑性之间的平衡。具体来说神经元校准是指对深层神经网络各层的变换函

2021-12-17 15:33:02 366

原创 Gradient Episodic Memory for Continual Learning 论文阅读+代码解析

一. 介绍在开始进行监督学习的时候我们需要收集一个训练集Dtr={(xi,yi)}i=1nD_{tr}=\{(x_i,y_i)\}^n_{i=1}Dtr​={(xi​,yi​)}i=1n​。大部门的监督学习都假定每一个例子都是从一个固定的概率分布P中进行独立同分布的采样。监督学习的目标为构造一个模型fff去预测目标向量y通过x。为了实现这种假设,监督学习通常采用经验风险最小化原则(ERM),fff在这种情况下为1∣Dtr∣∑(xi,yi)∈Dtrl(f(xi),yi)\frac{1}{|D_{tr}|}\

2021-12-16 12:55:14 2698

原创 Improved Schemes for Episodic Memory-based Lifelong Learning 论文阅读+代码解析

论文地址点这里一. 介绍目前深度神经网络能够在单一任务上取得了显著的性能,然而当网络被重新训练到一个新的任务时,他的表现在以前训练过的任务上急剧下降,这种现象被称为灾难性遗忘。与之形成鲜明对比的是,人类的认知系统能够在不破坏以前学到的情况下获得新的知识。灾难性遗忘激发了终身学习的领域。终身学习的一个核心难题是如何在旧任务和新任务之间取得平衡。在学习到新任务的过程中,原来学习到的知识通常会被打乱,从而导致灾难性遗忘。另一方面,偏向旧任务的学习算法会干扰新任务的学习。而针对这种场景下,目前提出了几种策略。

2021-12-15 18:08:25 2685

原创 Learning to Continually Learn论文笔记+代码解读

论文地址点这里一. 介绍在终身学习的场景下,灾难性遗忘成为模型参数遇到的最大的问题。针对这个问题,其中一个解决方法是使用重放方法。通过保存以前的经验,将它与新的数据混合来进行交叉来训练遗忘。然后保存这些信息需要的计算和存储消耗较大。另一种是采取冻结权重,直观思想是冻结那些容易导致结果变化较大的权重。EWC作为一个最基本的基于冻结权重的方式,根据计算fisher信息来进行对权重的衡量。其他类似的方法也是试图通过特定任务的突触重要性,通过对任务的权重变化使用L2正则化。还有一种方式是直接激励创建最稀疏的表示

2021-12-08 17:48:37 1001

原创 Personalized Federated Learning using Hypernetworks 论文阅读笔记+代码解读

论文地址点这里一. 介绍联邦学习是在多个不相交的本地数据集上学习模型的任务,由于隐私、存储等问题而无法共享本地数据集。但当数据分布在不同的客户端时,学习单个全局模型可能会失败。为了处理这种跨客户端的异构性,个性化联邦学习使每一个客户端能自行调整。pFedHN使用超网络(Hypernetwork)来为每个输入产生身影网络参数。每个客户端都有一个唯一的嵌入向量,该向量作为输入传递给超网络,因此绝大多书参数在客户机之间共享。使用超网络的另一个好处是,超级网络的训练参数向量永远不会被传输,每一个客户端只需要

2021-11-28 16:51:06 2797 6

原创 Adaptive Personalized Federated Learning 论文解读+代码解析

论文地址点这里一. 介绍联邦学习强调确保本地隐私情况下,对多个客户端进行训练,客户端之间不交换数据而交换参数来进行通信。目的是聚合成一个全局的模型,使得这个模型再各个客户端上读能取得较好的成果。联邦学习中FedAvg方法最为广泛,但由于本地数据分片之间的固有多样性和数据再客户端的高度非iid(独立同分布),FedAvg对超参数非常敏感,不能从良好的手链保证中获益。因此在设备异质性存在的情况下,全局模型不能很好的概括每个客户单独的本地数据。随着客户端数据的多样性增加,全局模型和个性化(客户端)模型的误差

2021-11-27 16:48:07 6339 6

原创 Federated Meta-Learning with Fast Convergence and Efficient Communication 论文阅读笔记+关键代码解读

论文地址点这里一. 介绍联邦学习中数据是非独立同分布的,基于FedAvg算法成功后,作者发现元学习算法MAML应对客户端上数据量较少,数据分布不均的场景提出了FedMeta框架,作为连接元学习方法和联邦学习的桥梁。在元学习中,参数化算法通过元训练过程从大量任务中慢慢学习,在元训练过程中,算法在每个任务中快速训练特定的模型。任务由互不关联的支持集和查询集组成。在支持集上训练特定的模型,然后在查询集上进行测试,测试结果用于更新算法。对于FedMeta来说,算法在服务器上维护并分发给客户端进行训练。训练之后,

2021-11-26 16:11:01 3175

原创 Learning without Forgetting 论文阅读和对应代码详解

论文地址点这里一. 介绍基于终身学习思想,我们希望新任务可以分享旧任务的参数进行学习,同时不会出现灾难性遗忘。在这种场景下,需要开发一种简单有效的策略来解决各种分类任务。基于这种策略和单纯的想法,我们的CNN模型有一组共享参数θs\theta_sθs​,在先前学习过的任务上的特定参数θo\theta_oθo​,以及为新任务随机初始化特定的参数θn\theta_nθn​。这样,对于一个网络θo和θn\theta_o 和\theta_nθo​和θn​可以看作是作用于参数θs\theta_sθs​的特定分类器

2021-11-25 17:41:30 2474 3

原创 Federated Continual Learning with Weighted Inter-client Transfer——论文笔记

一. 简介持续学习是一种序列化任务学习方式使得机器能够像人类一样不断去学习新知识而避免灾难性遗忘。然而,即便这样,这些模型根本上还是存在缺陷,因为每一个模型只能从直接经验去学习知识(意思是,只能对于自己的数据集去进行学习)。但是人类可以从书籍、视频等方式去获取他人的经验。那么不同机器也也可以存在这样一个方式去进行信息交换和学习,然而这样又到来隐私和通信的问题,而处理这一问题的方法就是联邦学习。联邦学习是通过交换参数而不是原始数据本身来解决上述问题。然而简简单单的结合将会带来新的挑战。**首先是,持续的联

2021-11-18 17:53:49 1745 19

原创 Learning to Learning with Gradients———论文阅读第三部分

元学习中一个很重要的算法MAML,给出了讲解以及对应的代码,现在继续深入这个算法。四. 基于模型不可知的元学习算法(MAML)4.2 几种MAML4.2.1 监督的回归和分类任务核心和之前是一样的,对于监督学习的话,单输入单输出,我们的损失函数可以定位为:回归:L(Φ,Dji) = ∑x(i),y(j)∣∣fΦ(x(i))−y(j)∣∣22L(\Phi,{D_j}_i)\ =\ \sum_{x^{(i)},y^{(j)}}||f_{\Phi}(x^{(i)})-y_{(j)}|

2021-11-14 20:43:24 228

原创 Learning to Learning with Gradients———论文阅读第二部分

(前几天忙着处理联邦学习和终身学习任务,加上有点犯懒,没有坚持看论文,今天继续!!)第一部分点击这里!!Learning to Learning with Gradients———论文阅读第一部分四. 基于模型不可知的元学习算法(MAML)前三章我们主要探讨了元学习的基本概念,以及如何以数学方式去描述任何一个元学习算法,以及元学习应该具备的性质等,这一节,论文想提出一个通用的、与模型无关的元学习算法。作者主要关注的是如何去训练出事参数,使得模型在新任务重使用少量数据计算就能达到最大的性能。这也就是M

2021-11-05 23:21:51 435

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除