EWC：Overcoming catastrophic forgetting in neural networks论文笔记

最新推荐文章于 2024-09-27 11:50:10 发布

Lcx559

最新推荐文章于 2024-09-27 11:50:10 发布

阅读量481

点赞数

文章标签：算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lcx559/article/details/127820726

版权

EWC：Overcoming catastrophic forgetting in neural networks

概要

根据某些参数对先前任务的重要性来缓解某些参数权重的学习率

EWC

约束重要的参数以保持接近旧的值。

解决问题：

为什么希望找到一个与旧任务解决方案相近的新任务
如何实现对参数的约束
如何确定某些参数是重要的

θ的不同配置可能导致一个相同的结果，因此新任务的参数可能和就任务的此参数相似。

将就任务的参数限制在一个误差较小的区域内。不同参数的重要性是不同的。

优化参数相当于在给定数据D后，找到参数最可能的值。

在已知先验概率p（θ）和数据的概率p( D | θ )计算后验概率p( θ | D )：

假设又A、B两个任务：

左边需要整个数据集，右边则只取决于B任务的损失函数

当训练好任务A后，直接采用梯度下降训练任务B，（蓝色箭头），最小化了B的损失，但是会忘记任务A。

若对每个参数都采用同等的约束效力（绿色箭头），无法学习新的任务B

计算每个参数的重要性进行约束（红色箭头）

将后验分布近似为高斯分布，其均值为θ*a（A任务的参数），又费雪信息矩阵给出对角线精度，费雪信息同等与KL散度的负二阶倒数。

因此可以定义EWC的损失函数：

LB（θ）为任务B的损失，通过λ来设置旧任务对于新人物的重要性，并对每个任务进行标签。

当出现任务C后，EWC会保持网络的参数接近任务A和任务B。

2.1 EWC allows continual learning in a supervised learning context

左图，在出现新任务后只有EWC能够对三个任务都又较高的准确率，每当有新任务出现后，SGD对旧任务识别的准确度都会下降，而L2对A任务一直有较好的准确率，但是对后续任务的识别效果不好。

中间的图，在随着任务数量的增多，EWC较之SGD展示了优秀的性能。

右图，当两个任务相似时，他们的fisher矩阵重叠的部分也较大，共用了相同的权重

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Lcx559 CSDN认证博客专家 CSDN认证企业博客

码龄3年

26: 原创

148万+: 周排名

164万+: 总排名

1万+: 访问

: 等级

273: 积分

0: 粉丝

10: 获赞

9: 评论

31: 收藏

私信

关注

热门文章

最新评论

PCT: Point Cloud Transformer论文阅读及理解
沙树林: 我复现的时候为什么在取点的那个sample_and_group中最后new_points = torch.cat((grouped_points_norm, new_points), dim=-1)的时候，维度不对呢？代码中是最后一维进行连接，而我是倒数第二维才能连接
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models”听起来非常专业和引人入胜。您在深入探讨高分辨率视频合成和潜在扩散模型方面的研究上取得了显著进展，这真是令人印象深刻。在我看来，您在博客上的连续创作表明了您对这个领域的热情和扎实的研究能力。接下来，我希望能看到您在这个主题上扩展更多内容，例如探索不同的应用场景、与其他相关技术的比较或者是实验结果的进一步分析，以加深我们对高分辨率视频合成的理解。虽然我知道这需要大量的努力和时间，但我相信您的深入研究将为我们带来更多有价值的见解。请继续保持谦虚的态度，您的博客是我学习和了解最新研究进展的重要来源。期待您未来的创作，愿您在接下来的旅程中继续取得成功！
PCT: Point Cloud Transformer论文阅读及理解
小猿先森: Wv is ignored since it is a weight matrix of the Linear layer. I is an identity matrix comparable to the diagonal degree matrix D of the Laplacian matrix and A is the attention matrix comparable to the adjacency matrix E.
PCT: Point Cloud Transformer论文阅读及理解
小猿先森: 文中： Wi因为时Laplace层的权重矩阵，因此被忽视？（这里有点不懂，评论区有大佬帮忙解释一下吗）请问一下为啥呢？
GOOD: A global orthographic object descriptor for 3D object recognition and manipulation论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。