- 博客(10)
- 收藏
- 关注
原创 机器学习概念理解——迁移学习
在神经网络的底层上学到的一般都是数据的底层的根本的特征,随着层数越多,学习到的全局的知识越多,越具体,向数据的标号空间靠近。将预训练好的模型学到的知识迁移到别的任务/模型上,使其之前的知识得以保留,辅助在其他任务/模型上的训练。在Fine-Tuning中将预训练模型的底层freeze,学习率调为0.
2023-11-03 19:38:47 71
原创 论文阅读Mark(五)Prototype-Sample Relation Distillation Towards Replay-Free Continual Learning. ICML2023
相对于目前在持续学习领域中处于主导地位的Replay方法,该方法不存储之前学习过的数据,也就不进行数据重放来巩固之前的知识,而是利用关系蒸馏和监督对比学习,解决了Replay方法的存储数据和数据隐私等问题,为replay-free的持续学习领域给予启发。因为在对网络进行优化的过程中(SC loss),对参数进行更新,所以对每个样本进行forward得到的feature就会改变,进而使得prototype变得“过时”,得到的预测结果会有很大偏差(forgetting)。sg是指梯度截断操作。
2023-08-25 16:02:07 388 1
原创 论文阅读Mark(四)Overcoming Catastrophic Forgetting for Continual Learning via Model Adaptation ICLR2019
PGMA(Parameters Generation and Model Adaptation),作者提出的模型与之前的LwF、EWC、iCarL方法大不相同。PGMA不像LwF或EWC,学习一整套的参数,来应对所有的任务。它将分类器的参数分为两部分,一部分为所有任务共享参数集,另一部分为任务特定参数集。对于每一个训练(测试)实例,都为其生成特定的参数集来完成分类等任务。
2023-08-02 16:26:18 140
原创 论文阅读Mark(三)iCarL 2017CVPR Christoph H. Lampert
iCarL采用了经典深度学习的CNN网络结构,最后加上一个单层分类层,由sigmoid函数作为激活函数,对已经发现的类别进行分类。习的CNN网络结构,最后加上一个单层分类层,由sigmoid函数作为激活函数,对已经发现的类别进行分类。,第一个部分是计算新的类别的交叉熵,来学习分辨新的类;在iCarL中,不能计算真正的类均值,因为这样需要存储所有的类数据,与增量学习原则相悖。首先,iCarL会构建一个新的训练集合,由当前存储的样本和新的数据构成。因为在构建样本集的时候,算法是得到的样本集是有优先级的(
2023-07-29 21:28:17 165
原创 论文阅读Mark(二) Distilling the knowledge in a neural network NIPS2014 Hinton
本篇博客笔记是对B站up主同济子豪兄讲解的知识蒸馏开山之作的重点记录整理,非原文献的raw note。知识蒸馏是从一个网络中提取蒸馏有用的知识到另一个网络中,使得另一个网络具备原网络的能力。能够将大模型压缩成小模型。在这个过程中可以看作是一对网络:教师——学生网络,教师掌握的知识多,学生需要学习教师的网络。教师将TA的知识传授给学生。
2023-07-27 16:07:17 98 1
原创 Python Coding Skills
clone()和detach()都是对Tensor进行的复制操作。二者的不同之处在于复制Tensor后,新的Tensor是否与原Tensor共享内存以及是否仍需要计算梯度。model.name_parameters中包含该模型的所有参数,以及其是否参与梯度运算。在python中使用双斜杠出发,代表抹去小数部分,只保留证书部分。将Tensor扩展为其他Tensor的大小。
2023-07-26 11:05:34 61 1
原创 ML训练技巧
梯度截断。神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸,那么就是学过了,会直接跳过最优解。
2023-07-23 16:35:59 87
原创 论文阅读Mark(一)Generative Feature Replay For Class-Incremental Learning CVPR2020【Xialei Liu,Chenshen Wu】
文章提出了一种“新”的持续学习方法。构造了一个和的模型。文中作者论证了其模型的高效计算能力以及易于扩展到大的数据集上的优点。
2023-07-22 16:18:58 232
原创 机器学习概念梳理(1):信息熵、KL散度、交叉熵、Softmax、Fisher信息矩阵、正则化等
交叉熵应用:主要用于度量同一个随机变量X的预测分布Q与真实分布P之间的。softmax是将数字转化成概率神器,进行数据归一化的利器。因为有真实分布,若没有真实数据分布,需要用KL散度。X:模型上各分类输出的具体值;KL散度就是用来衡量同一个随机变量两个不同分布间的。第二步:求-log(真实标签对应数值所占的概率)为真实标签为1 的对应类别的模型预测值。第一步:算出真实标签对应数值所占的概率。KL散度:两个概率分布间的非对称性度量。交叉熵只和真实标签的预测概率值有关。预测越准确,交叉熵越小;
2023-07-15 21:51:13 678
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人