- 博客(26)
- 收藏
- 关注
原创 BatchNorm和LayerNorm有什么区别
批归一化(BatchNorm)和层归一化(LayerNorm)是深度神经网络中两种重要的归一化技术,它们的核心目标相似——稳定网络训练并加速收敛,但在实现方式和适用场景上有显著差异。
2025-03-10 20:26:02
545
原创 LoRA微调与大模型知识遗忘相关
*全参数微调(Full Fine-tuning)**是指更新大型语言模型(LLM)的所有参数。这种方法直接修改原始预训练模型的全部权重。**LoRA微调(Low-Rank Adaptation)**是一种参数高效的微调方法,它通过添加少量可训练的低秩矩阵来调整模型,而保持原始预训练权重不变。
2025-03-10 20:20:48
952
原创 大模型训练和推理所需的显存计算
单层激活值显存:约2.29 GB全模型激活值显存:约91.6 GB推理阶段,所需要的显存:推理阶段显存 = 模型参数显存 + KV Cache显存 + 激活值显存KV Cache显存 = 批次大小 × 模型层数 × 序列长度 × (键矩阵大小 + 值矩阵大小) × 2字节单层KV Cache显存 = 1 × 序列长度 × 隐藏层维度 × 2= 20,971,520字节≈ 20 MB总KV Cache显存 = 单层KV Cache显存 × 模型层数≈ 800 MB。
2025-03-10 19:52:07
1212
原创 25. K 个一组翻转链表
是一个正整数,它的值小于或等于链表的长度。你不能只是单纯的改变节点内部的值,而是需要实际进行节点交换。的整数倍,那么请将最后剩余的节点保持原有顺序。个节点一组进行翻转,请你返回修改后的链表。额外内存空间的算法解决此问题吗?
2025-01-07 17:39:22
184
原创 23. 合并 K 个升序链表
请你将所有链表合并到一个升序链表中,返回合并后的链表。给你一个链表数组,每个链表都已经按升序排列。将它们合并到一个有序链表中得到。
2025-01-07 16:38:04
230
原创 138. 随机链表的复制
指针也都应指向复制链表中的新节点,并使原链表和复制链表中的这些指针能够表示相同的链表状态。节点组成,其中每个新节点的值都设为其对应的原节点的值。个节点组成的链表来表示输入/输出中的链表。的链表,每个节点包含一个额外增加的随机指针。,该指针可以指向链表中的任何节点或空节点。那么在复制链表中对应的两个节点。例如,如果原链表中有。返回复制链表的头节点。
2025-01-06 15:09:26
275
原创 25.K个一组反转链表
是一个正整数,它的值小于或等于链表的长度。你不能只是单纯的改变节点内部的值,而是需要实际进行节点交换。的整数倍,那么请将最后剩余的节点保持原有顺序。个节点一组进行翻转,请你返回修改后的链表。额外内存空间的算法解决此问题吗?
2025-01-03 15:35:21
151
原创 24. 两两交换链表中的节点
给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。
2025-01-01 19:17:00
194
原创 2. 两数相加
你可以假设除了数字 0 之外,这两个数都不会以 0 开头。的链表,表示两个非负的整数。它们每位数字都是按照。请你将两个数相加,并以相同形式返回一个表示和的链表。的方式存储的,并且每个节点只能存储。
2024-12-30 19:35:10
231
原创 142. 环形链表 II
指针再次到达,则链表中存在环。为了表示给定链表中的环,评测系统内部使用整数。如果链表中有某个节点,可以通过连续跟踪。链表中有一个环,其尾部连接到第二个节点。链表中有一个环,其尾部连接到第一个节点。,返回链表开始入环的第一个节点。来表示链表尾连接到链表中的位置(,仅仅是为了标识链表的实际情况。返回索引为 1 的链表节点。返回索引为 0 的链表节点。给定一个链表的头节点。如果链表无环,则返回。,则在该链表中没有环。
2024-12-27 14:48:51
159
原创 240. 搜索二维矩阵 II
如果 matrix[x,y]>target,由于每一列的元素都是升序排列的,那么在当前的搜索矩阵中,所有位于第 y 列的元素都是严格大于 target 的,因此我们可以将它们全部忽略,即将 y 减少 1;如果 matrix[x,y]<target,由于每一行的元素都是升序排列的,那么在当前的搜索矩阵中,所有位于第 x 行的元素都是严格小于 target 的,因此我们可以将它们全部忽略,即将 x 增加 1。在搜索的过程中,如果我们超出了矩阵的边界,那么说明矩阵中不存在 target。
2024-12-24 13:28:45
345
原创 41. 缺失的第一个正数(超好记做法)
给你一个未排序的整数数组nums,请你找出其中没有出现的最小的正整数。请你实现时间复杂度为O(n)并且只使用常数级别额外空间的解决方案。3范围 [1,2] 中的数字都在数组中。21 在数组中,但 2 没有。1最小的正数 1 没有出现。
2024-12-19 19:23:12
331
原创 238. 除自身以外数组的乘积
给你一个整数数组nums,返回 数组answer,其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。题目数据数组nums之中任意元素的全部前缀元素和后缀的乘积都在整数范围内。请且在O(n)时间复杂度内完成此题。nums =[1,2,3,4]nums你可以在O(1)的额外空间复杂度内完成这个题目吗?( 出于对空间复杂度分析的目的,输出数组额外空间。要解决这个问题,可以使用和的思路,利用两个辅助数组来计算每个位置的乘积,而不使用除法。
2024-12-18 20:18:49
318
原创 56. 合并区间
浅拷贝(shallow copy):仅仅拷贝对象的引用,意味着原对象和拷贝对象中的嵌套对象(如列表、字典等)指向同一个内存地址。所以修改嵌套对象会影响到原对象。深拷贝(deepcopy):会递归地拷贝对象及其所有嵌套对象,确保新对象和原对象是完全独立的,修改新对象不会影响原对象。
2024-12-18 14:48:47
128
原创 53. 最大子数组和
不需要考虑后效性:因为每个位置的选择只依赖于当前已知的前一个状态,而不依赖于未来的状态。通过每一步的局部最优(是否继续当前子数组或重新开始一个新子数组),我们就能得到全局最优。动态规划的优势:通过记录每个子问题的解(最大子数组和),我们可以避免重复计算,从而提高计算效率。
2024-12-18 14:47:00
812
原创 力扣刷题记录
给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。的滑动窗口从数组的最左侧移动到数组的最右侧。,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。的子串,返回这些子串的起始索引。是由重新排列源单词的所有字母得到的一个新单词。移动到数组的末尾,同时保持非零元素的相对顺序。,必须在不复制数组的情况下原地对数组进行操作。轴共同构成的容器可以容纳最多的水。
2024-12-10 20:44:01
537
原创 斯坦福 Mobile Aloha 开源ACT代码复现教程
它提供了在机器人操作领域收集的广泛的演示数据集,以及从这些数据集学习的学习算法。该项目是通过模拟环境更深层次的推进机器人智能(ARISE)计划的一部分,旨在降低人工智能和机器人交叉领域前沿研究的进入门槛。配置环境的最后一步,安装detr所需要的util库,这个库已经在Mobile ALOHA的源码里了,路径为。DATA_DIR是存放数据集的位置,每个子文件夹对应着训练的子任务,名字一一对应。pytorch需要单独安装,保证安装的是gpu版本,根据自己的cuda版本在。不需要额外安装cudNN。
2024-01-24 09:31:49
11610
44
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人