- 博客(193)
- 收藏
- 关注
原创 在卷积神经网络中真正占用内存的是什么
模型参数:权重和偏置。中间特征图:每一层的输出。激活值:每一层计算出的激活值。梯度:反向传播计算的梯度。优化器状态:如 Adam 等优化算法中的额外状态信息。输入数据:训练时加载到内存中的输入数据。其他辅助数据:如模型的元数据和层的配置。这些部分决定了模型在训练和推理过程中的内存占用,尤其是在训练时,随着网络深度、批次大小和模型复杂度的增加,内存消耗会显著增加。
2024-11-13 09:23:28 401
原创 RT-Tread操作系统单核调度和多核调度关键代码解读
如果线程没有绑定到特定核心或者绑定到当前核心,则允许当前核心继续运行这个线程,否则会根据核心绑定状态将线程插入到其他核心的就绪队列。这段代码为跨核切换奠定了基础,使得调度器在多核环境中可以安全地操作线程状态并进行跨核调度。在这份代码中,有几部分代码最能体现 RT-Thread 的多核调度特性,尤其是多核环境下的任务分配和上下文切换。在多核调度中,这个函数可以根据需要切换到不同核心的就绪线程,确保多核环境下任务的高效执行。通过这些步骤,代码确保了在多核环境下,最高优先级的线程能够在正确的核心上运行。
2024-11-11 23:34:44 924
原创 如何利用bibtex在Latex中添加参考文献
所以我们可以在当前tex文件同目录下新建一个Cite.bib 然后把bib文件格式放入即可。编辑Cite.bib文件用WinEdt较为方便。在\end{document}前面添加。第二行表示从哪里得到文献库。第一个行表示文献的板式。以IEEE格式为例子。
2024-11-11 10:22:59 106
原创 SGD学习器和Adam学习器之间的区别与关系
(随机梯度下降)和(Adaptive Moment Estimation)是两种常用的优化算法,在训练神经网络时,它们都用来最小化损失函数并更新模型参数。尽管它们有相似的目标,但在更新规则和效率上有所不同。
2024-11-06 08:32:45 684
原创 自我优化(如编码器解码器架构)过程能用EMA方法吗
模型在“自我优化”过程中也可以使用 EMA 方法。通过 EMA 方法更新自身参数,模型可以更平稳地改进,而不受单次更新带来的噪声影响。这种方法通常在半监督学习、自监督学习或强化学习中非常有效,因为它可以帮助模型在优化过程中保持稳定,并且在模型推理阶段提供更稳健的表现。
2024-10-31 11:19:45 313
原创 教师学生模型是怎么通过EMA机制来优化两者参数的
在教师-学生模型(Teacher-Student Model)中,EMA(指数移动平均)常用于教师模型的参数更新,以增强教师模型的稳定性并帮助学生模型更好地学习。
2024-10-31 11:13:59 293
原创 利用前向勾子获取神经网络中间层的输出并将其进行保存(示例详解)
forward_hook布置了抓取函数。其中,module代表你下面勾的那一层,input代表那一层的输入,output定义那一层的输出,我们常常只使用output。这里定义了我需要捕获的那一层,layers[-1]代表我要捕获当前layers的最后一层,即上采用层,由于循环了三次,所以最后勾取的应当是三份中间层输出。
2024-10-26 23:38:08 291
原创 关于CFLOW-AD论文中数学部分逻辑推理解析与代码对照
1 基本逻辑:根据论文中的阐述,我们通过编码器(encoder)是可以获得一个复杂分布z的,由于z分布复杂,不容易用来求解损失函数,所以我们通过解码器(decoder)来获取一个简单(0,1)高斯分布u,配合一个雅可比矩阵J,来代替掉复杂分布z。decoder_log_prob = get_logp(C, z, log_jac_det)得到的是公式5.2中的结果或7.2中的每一个相加的小部分。公式5.1和5.2:表示真实分布和预测分布的计算,其中预测分布计算方式已经根据基本逻辑进行了替换。
2024-10-25 19:34:37 413
原创 为什么最小化负对数似然可以逼近真实数据分布(数学原理解析)
最小化负对数似然(Negative Log-Likelihood, NLL)能够逼近真实数据分布的数学原理,核心在于和,这两者紧密相关。下面通过最大似然估计的原理及其与 KL 散度的关系,解释为什么最小化负对数似然能够逼近真实数据分布。
2024-10-24 00:03:38 647
原创 VIT:论文关键点解读与常见疑问
借用BERT中的CLS思想,因为在transformer中,自注意力机制是可以是各个向量看到其他任意一个向量的,假设有196个patch,CLS就取与他们相同的长度,变成197个向量,CLS,就可以同时学到其他196个向量的信息,所以CLS身上负载了整个图片信息,最后经过MLP层进行降维就可以用来做分类任务了。利用卷积,这个块上总的像素个数就是卷积这一块patch的卷积核个数。2 转化后的这么多向量是如何用来做分类任务的?1 Patch怎么转化为向量的?
2024-10-19 21:38:33 799
原创 BERT论文关键点解读与常见疑问
BERT 可以作为生成模型的编码器,编码输入序列的信息。生成能力差:BERT 的设计主要是为了解决自然语言理解任务,而不适合自然语言生成任务(如文本生成、翻译等),这是由于它的双向性编码和 MLM 任务无法进行自回归生成。:通过这种架构,研究者可以在各种 NLP 任务上复用 BERT 的预训练模型,不需要为每个任务从头开始训练模型,大大减少了时间和资源的消耗。传统的语言模型(如 GPT)是单向的,即只能从左到右或从右到左考虑上下文,BERT 的双向性让模型能够更深刻地理解句子中每个词的含义。
2024-10-19 21:29:15 748
原创 IEEE GRSL投稿历程分享
本人为本科生,在投这本期刊时已经经历了三次拒稿(两次RS,一次GRSL),被RS拒稿意料之中,因为工作量并不是特别大,所以写得比较短,再加上开始时经验比较少,所以被拒稿。GRSL在23年之前是二区,但到24年之后降为了三区,个人感觉很大一部分原因在于它是短刊吧,另一方面,遥感方向的好的期刊也越来越多。投稿经验:论文创新点要求较高,实验量要求较低,如果能拿到大修,对每一条修改意见进行认真回复,中稿不太成问题(我是收到了三位审稿人共近40条意见,光word就写了满满17页,最后也是被三位审稿人一致ac)
2024-09-28 19:21:39 623
原创 在Autodl上git clone失败显示gnutls_handshake() failed: The TLS connection was non-properly terminated.
问题描述:没有设置任何代理并且在使用。相关的软件出了问题,解决方法为更新。然后重新git clone即可。
2024-08-29 12:02:28 143
原创 拥有prediction和label之后对TP TN FP FN进行标色( 直接可用)
在该函数示例中,output和prediction都是尺寸为[1,256,256] 、数据类型为tensor且都在cuda上。
2024-08-25 13:31:46 237
原创 将Transformer应用于图像时,如何理解其中的QKV(形象化说明)+自注意力机制的理解
当我们通过Query(心中的黄色小猫咪形象)与Key(画册上的关键词)进行匹配后,找到了对应的页面,这个页面上的动物图片(Value)就是我们最终得到的具体信息内容。3. Value(值):是实际的“信息内容”。它代表着当前要关注的信息点,比如在处理图像时,某个图像块想要了解自己与其他图像块的关系,这个图像块对应的向量就充当了Query的角色。在Transformer处理图像的过程中,通过计算Query与各个Key的相似度,来确定对不同Value的关注程度,从而实现对图像特征的有效提取和融合。
2024-08-24 12:23:05 301
原创 01背包从二维数组到以为滚动数组的理解
重点在于状态的保留,i++之后有dp数组开始未进行变化,所以其相当于还是上一层的值,利用倒序遍历,不会计算时破坏需要的前面的值 这样就可以实现一维数组的滚动。
2024-08-12 16:44:11 120
原创 从一道题目中思考dfs函数需不需要返回值(void or int···)
上面两份代码第一份是可以通过的(因为多了记忆化搜索),第二份超时了。在这题中,由于我们想加入记忆化搜索,如果没有返回值,会导致运行和记录的不同步(确切值的记录),所以选择有返回值的会容易写一点。
2024-08-10 14:46:49 252
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人