
教学
文章平均质量分 81
本人在读博士,研究大模型,数据交易,联邦学习领域
总结前言论文以及领域相关问题解决办法。
本人在科研一线,在文章架构设计,公式编辑,图片美化,语言润色。overleaf编辑方面有一定经验,直接订阅后,本人可以协助完成投稿返修;
优惠券已抵扣
余额抵扣
还需支付
¥199.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
ZhangJiQun&MXP
本人在读博士,研究大模型,数据交易,联邦学习领域
每天帮助你们总结前言论文以及个人遇到问题。
投稿Expert Systems with Applications历时4个月;中科院1区顶刊,本人在科研一线,在文章架构设计,公式编辑,图片美化,语言润色。overleaf编辑方面有一定经验,直接订阅后私信本人可以协助完成投稿返修。https://blog.csdn.net/qq_38998213/article/details/146232131?sharetype=blogdetail&sharerId=146232131&sharerefer=PC&sharesource=qq_3899821
展开
-
`docker-compose`是什么,怎么使用
假设你有一个简单的 Web 应用,由一个 Web 服务器(如 Nginx)和一个后端应用(如 Python Flask)组成。是 Docker 官方提供的一个工具,用于定义和运行多容器的 Docker 应用程序。它通过一个 YAML 文件来。等,只需一个命令,就能根据配置文件创建并启动所有服务。能让你轻松地管理多个容器组成的应用程序。2. 打开浏览器,访问。参数表示在后台运行。通过这个示例可以看出,原创 2025-03-19 20:52:05 · 5 阅读 · 0 评论 -
LoRA中黑塞矩阵、Fisher信息矩阵是什么
黑塞矩阵和Fisher矩阵为优化提供理论基础,而LoRA通过低秩近似降低计算成本。三者的结合在大模型微调中具有潜力,未来可进一步探索动态低秩结构、理论分析和跨模态应用。原创 2025-03-19 19:41:16 · 5 阅读 · 0 评论 -
重要重要!!改进求取Fisher矩阵的方法: 加权正则化Fisher矩阵
Fisher矩阵在机器学习和统计学中有着重要作用,传统上常通过对数据样本取平均来近似求取。然而,这种简单平均的方法存在一些局限性,比如可能受异常值影响、未充分考虑数据分布特性等。以下介绍几种改进求取Fisher矩阵的方法。原创 2025-03-19 17:10:03 · 6 阅读 · 0 评论 -
怎么用LoRA的低秩结构近似Fisher矩阵
怎么用LoRA的低秩结构近似Fisher矩阵**1. Fisher矩阵的内存挑战****2. LoRA的低秩结构与Fisher近似****3. 具体实现步骤****4. 示例说明****5. 有效性分析****6. 扩展与优化****总结**原创 2025-03-19 17:06:31 · 5 阅读 · 0 评论 -
重要重要!! Fisher矩阵是怎么计算的; Fisher矩阵对角线与非对角线元素的意义; 但是对于矩阵A的长宽是不一致的,fisher矩阵的长宽是一致的,怎么对应参数 θ
Fisher矩阵是怎么计算的**一、Fisher矩阵的参数计算方法****1. 理论定义****2. 实际计算流程****二、Fisher矩阵是针对基础模型还是LoRA模型?****1. 基础模型的Fisher矩阵****2. LoRA模型的Fisher矩阵****三、示例说明:LoRA中Fisher矩阵的计算流程****1. 数据准备****2. 前向传播****3. 计算梯度****4. 外积计算****5. 平均得到Fisher矩阵****6. 低秩近似**原创 2025-03-19 17:02:03 · 8 阅读 · 0 评论 -
LORA 中的 梯度外积是什么意思; 方差和协方差的实际含义:衡量变量的离散程度和变量间的线性相关性
LORA 中的 梯度外积是什么意思**一、梯度外积的定义****二、示例说明****步骤1:计算单样本梯度****步骤2:计算梯度外积****三、梯度外积的作用****四、总结**方差和协方差的实际含义:衡量变量的离散程度和变量间的线性相关性原创 2025-03-19 16:44:00 · 5 阅读 · 0 评论 -
LoRA(低秩适应)中流行的梯度下降算法; 一阶导数和二阶导数的物理含义:二阶导数可以描述曲率和下降趋势
LoRA(低秩适应)中流行的梯度下降算法自然梯度下降与梯度下降的区别流行的自然梯度相关方法一阶导数和二阶导数的物理含义:二阶导数可以描述曲率和下降趋势原创 2025-03-19 11:27:10 · 5 阅读 · 0 评论 -
二阶泰勒展式推导牛顿法迭代公式过程
这就是牛顿法的迭代公式。它的本质是:通过泰勒展式将原函数的极值问题转化为二次函数的极值问题,利用二次函数的导数特性(导数为。是二阶导数(黑塞矩阵)。泰勒展式的意义是:在。附近,用二次函数近似原函数,简化极值求解。综上,无论从矩阵求导规则还是逐项求导的角度,时的解),直接得到参数的更新方向。所有偏导组合起来,结果就是向量。处可微,用二阶泰勒展式近似。为寻找极值点,对近似函数关于。是一阶导数(梯度),(极值的必要条件)。两边左乘黑塞矩阵的逆。整理得到下一个迭代点。原创 2025-03-19 11:08:56 · 57 阅读 · 0 评论 -
梯度与偏导数关系
- **梯度是偏导数的“集合”**:梯度本质上是将函数对所有自变量的偏导数按顺序组合成一个向量。每个分量对应一个自变量的偏导数,体现了函数在该自变量方向上的变化率。 - **几何意义的延伸**:偏导数 $\frac{\partial f}{\partial x_i}$ 描述函数沿单一方向 $x_i$ 的变化率;而梯度 $\nabla f$ 则是一个向量,其方向指向函数增长最快的方向,模长表示最大变化率,是对所有偏导数信息的综合利用。原创 2025-03-19 11:03:32 · 232 阅读 · 0 评论 -
什么是牛顿法; 梯度下降和牛顿法的实质区别; 牛顿法与泰勒展式的关系
什么是牛顿法**1. 核心原理****2. 与梯度下降的对比****3. 示例:求解二次函数最小值****4. 机器学习中的应用:逻辑回归****5. 局限性与改进****6. 与LoRA的结合****总结**梯度下降和牛顿法的实质区别梯度下降和牛顿法在实用方面的实质区别牛顿法中二阶信息的优势牛顿法中二阶信息带来的缺点原创 2025-03-19 10:54:33 · 93 阅读 · 0 评论 -
LLM中lora的梯度更新策略公式解析
LLM中lora的梯度更新策略公式解析区别如何使用LoRA代码中的参数更新方式二阶导数(如右侧公式关联的Fisher信息)的作用原创 2025-03-18 23:33:29 · 51 阅读 · 0 评论 -
自然梯度下降公式解析
普通梯度下降(GD)直接沿梯度方向更新参数,但在参数空间存在曲率(如参数间相关性)时效率较低。自然梯度下降(Natural Gradient Descent)是一种优化算法,通过调整梯度方向以适应参数空间的曲率(即协方差结构),从而加速收敛。例如,在高斯混合模型(GMM)中,FIM会帮助确定均值和协方差参数的协同更新步长,避免普通梯度下降因参数相关性导致的低效。,因为伯努利分布的参数空间是平坦的(F为标量,与梯度方向一致)。假设模型为一维高斯分布。原创 2025-03-18 19:58:12 · 37 阅读 · 0 评论 -
重要重要!!fisher矩阵元素有什么含义和原理; Fisher 信息矩阵的形式; 得到fisher矩阵之后怎么使用
在猫狗图像识别中,Fisher 矩阵的对角线元素刻画单个参数对分类概率的独立影响,非对角线元素刻画参数间的协同影响。通过这些元素,模型能识别哪些参数(如特征提取权重)对分类结果更关键,进而在优化(如 LORA 微调)时更合理地调整参数,提升分类准确性。原创 2025-03-18 16:32:30 · 69 阅读 · 0 评论 -
Fisher 信息矩阵公式原理:使用似然估计,二阶导数等知识点
Fisher 信息矩阵衡量参数。Fisher 信息矩阵公式原理:使用似然估计,二阶导数等知识点Fisher 通过似然估计求解真实数据和权重参数之间的差异**1. Fisher 信息矩阵的定义****2. 计算对数似然函数的二阶导数****3. 代入 Fisher 信息矩阵定义****4. 公式的直观意义**原创 2025-03-18 10:40:22 · 62 阅读 · 0 评论 -
重要!!! lora中一般使用似然函数还是交叉熵? 似然函数公式的简单理解; θ 参数变化有什么意义,从0 0,133 0,255
lora中一般使用似然函数还是交叉熵? 似然函数公式的简单理解; θ 参数变化有什么意义,从0 0,133 0,255原创 2025-03-18 10:38:11 · 23 阅读 · 0 评论 -
常见的loss求偏导一次就可以了,为什么fisher矩阵是求二次偏导:Fisher信息矩阵(似然函数)通过二阶导数量化了数据对参数估计的*贡献*程度
常见的loss求偏导一次就可以了,为什么fisher矩阵是求二次偏导:Fisher信息矩阵(似然函数)通过二阶导数量化了数据对参数估计的*贡献*程度原创 2025-03-18 10:27:08 · 18 阅读 · 0 评论 -
LORA的AB矩阵是针对Transformer的多头还是MLP
若共享AB矩阵,参数进一步减少(如所有头共享同一组。,但会根据多头机制拆分为多个头。Transformer中的矩阵通常是。LORA的AB矩阵主要作用于。原创 2025-03-18 08:39:17 · 61 阅读 · 0 评论 -
Transformer求偏导怎么用到链式法则的(多头、loss、残差、归一化)
通过链式法则,Transformer的复杂结构(如多头、残差、归一化)的梯度得以高效计算,确保参数优化的正确性。在Transformer中,权重参数并非“一次性”使用,而是通过链式法则在反向传播中逐层传递梯度进行优化。尽管Transformer中存在非线性激活函数(如FFN中的ReLU),但。:梯度从损失函数逐层传递到每一层的参数,每一步都涉及中间变量的导数乘积。Transformer中的参数(如线性层的权重矩阵、偏置)均为。在标准的Transformer架构中,权重参数。,即它们的形式是线性的。原创 2025-03-18 08:38:10 · 86 阅读 · 0 评论 -
似然函数和交叉熵损失是什么
交叉熵损失直接反映预测结果与真实标签的差异。损失值越低,说明模型预测越准确。实际训练中,通过优化算法(如梯度下降)最小化该损失,可不断调整模型参数,使预测概率更贴近真实标签。对数似然本质是衡量模型预测概率与真实标签的“契合度”。(即越大),表示模型预测的概率分布越接近真实标签的分布。原创 2025-03-18 00:34:25 · 26 阅读 · 0 评论 -
什么时候用似然,什么时候交叉熵
什么时候用似然,什么时候交叉熵似然:模型参数对数据的拟合概率 ,当需要通过数据推断概率分布的参数时,使用似然函数交叉熵:与真实差异,模型预测的概率分布逼近真实标签的分布时什么时候用似然,什么时候交叉熵1. 用“似然”的场景2. 用“交叉熵”的场景3. 关键区分总结交叉熵损失原理简单举例(二分类场景)原创 2025-03-18 00:33:54 · 32 阅读 · 0 评论 -
在似然函数、交叉熵等场景中为什么使用对数(log):将概率连乘转为加法,求导更加便捷
在似然函数、交叉熵等场景中为什么使用对数(log):将概率连乘转为加法,求导更加便捷1. **简化计算:连乘转加法**2. **保持单调性:不改变极值位置**3. **数值稳定性:避免下溢**4. **信息论基础:契合信息量定义**对数加法运算的核心规则与应用场景1. **基本规则:对数加法转乘法**2. **在概率与统计中的典型应用**3. **机器学习中的应用**4. **对数加法的逆运算**原创 2025-03-18 00:33:16 · 106 阅读 · 0 评论 -
二阶近似 是什么意思
Fisher 信息矩阵通过梯度的二阶统计量,刻画了损失函数对参数变化的敏感程度。取期望,综合了所有样本的信息,让模型学习到数据整体的统计规律(如猫和狗在耳朵、脸型等全局特征的差异),而非单一样本的局部噪声,这正是“统计意义上全局特性”的体现。是数学分析中通过泰勒展开对函数进行近似的方法,保留到二阶项(即包含一阶导数和二阶导数)。是二阶导数构成的 Hessian 矩阵。通过该矩阵可近似 Hessian 矩阵,用于计算参数的协方差矩阵。,辅助分析参数的置信区间,或在优化中引导更合理的参数更新。原创 2025-03-17 23:53:40 · 48 阅读 · 0 评论 -
Fisher信息、梯度方差与学习率调度器的计算流程
Fisher信息、梯度方差与学习率调度器的计算流程**步骤1:定义模型与数据集****步骤2:计算梯度与Fisher信息****步骤3:计算梯度方差****步骤4:定义学习率调度器****步骤5:参数更新流程****示例输出****关键概念说明**原创 2025-03-17 23:41:59 · 47 阅读 · 0 评论 -
什么是 Fisher 信息矩阵
Fisher 信息矩阵是统计学和机器学习中一个重要的概念,它用于衡量样本数据所包含的关于模型参数的信息量。Fisher 信息矩阵反映了样本数据对模型参数的区分能力,其计算主要基于对数似然函数的二阶导数的期望。不同的分布和模型,其 Fisher 信息矩阵的形式和计算方法会有所不同,但基本步骤都是先计算对数似然函数,再求其一阶和二阶导数,最后取期望的相反数得到矩阵元素。原创 2025-03-17 23:19:37 · 136 阅读 · 0 评论 -
`FisherTrainer` 的自定义 `Trainer` 类:累积梯度的平方并求平均来近似计算 Fisher 信息矩阵
整体目标Fisher 信息矩阵用于衡量模型参数的不确定性,其在优化问题中可以帮助我们更准确地更新模型参数,避免陷入局部最优。在代码中,我们通过**累积梯度的平方并求平均来近似计算 Fisher 信息矩阵。**原创 2025-03-17 23:12:14 · 117 阅读 · 0 评论 -
矩阵的逆的实际意义及牛顿法中的作用
矩阵的逆的实际意义及牛顿法中的作用**一、矩阵逆的实际意义****二、牛顿法中矩阵逆的作用****三、实际应用中的挑战与改进**总结原创 2025-03-17 23:03:23 · 61 阅读 · 0 评论 -
矩阵期望 E 的含义:概率
在概率论和统计学中,数学期望(或均值,简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一,它反映随机变量平均取值的大小。用公式表示,如果离散型随机变量。它不是单纯对矩阵进行常规的数值计算,而是基于概率统计对矩阵内随机元素的一种平均化描述。矩阵的期望是指矩阵中每个元素分别求期望所得到的新矩阵。例如,掷一枚均匀的骰子,出现的点数是一个随机变量。,每个取值的概率都是。是随机变量,那么矩阵。原创 2025-03-17 22:59:48 · 129 阅读 · 0 评论 -
举例说明 牛顿法 Hessian 矩阵
矩阵求逆的方法及示例1. 伴随矩阵法2. 初等行变换法矩阵逆的实际意义1. 求解线性方程组2. 线性变换的逆操作3. 数据分析和机器学习4. 优化问题牛顿法原理解释举例说明 牛顿法 Hessian 矩阵原创 2025-03-17 22:53:19 · 110 阅读 · 0 评论 -
Hessian 矩阵是什么
Hessian 矩阵是多元函数二阶偏导数构成的方阵,用于分析函数**局部曲率、判断极值点**等。原创 2025-03-17 21:33:15 · 95 阅读 · 0 评论 -
LoRA有哪些 参数高效微调方法?
变体形式核心公式LoRA 最佳适用场景优势Fisher 信息矩阵FE∇θ∇θTFE∇θ∇θT少样本学习(Few-shot)二阶优化,避免局部极值动态方差(Adam)vtβvt−11−βgt2vtβvt−11−βgt2非平稳数据(如多模态混合数据)自适应学习率,鲁棒性强分层方差VarA≠VarBVarAVarB结构化任务(如代码/数学推理)利用低秩结构,精细化控制局部方差归一化。原创 2025-03-17 17:14:57 · 31 阅读 · 0 评论 -
训练中还有哪些eval_strategy
训练中还有哪些eval_strategy目录训练中还有哪些eval_strategy1. `"no"`2. `"steps"`3. `"epoch"`4. 其他可能的自定义策略原创 2025-03-17 16:56:05 · 15 阅读 · 0 评论 -
Transformer训练时的设置的参数有哪些
Transformer训练时的设置的参数有哪些1. `output_dir`2. `overwrite_output_dir`3. `num_train_epochs`4. `per_device_train_batch_size`5. `gradient_accumulation_steps`6. `learning_rate`7. `warmup_steps`8. `logging_steps`9. `save_steps`10. `fp16`11. `report_to`原创 2025-03-17 16:54:07 · 15 阅读 · 0 评论 -
什么是梯度方差和缩放因子
什么是梯度方差和缩放因子计算梯度方差(Fisher 信息)作用梯度方差计算方式(方差越大,参数越重要,小步更新(细致一些))原创 2025-03-17 16:49:02 · 143 阅读 · 0 评论 -
Lora 中 怎么 实现 矩阵压缩
对预训练的因果语言模型进行参数高效微调,运用 AdaLoRA 方法,在训练过程中计算梯度方差,同时应用学习率调度器和早停策略,最后在测试集上评估模型的准确率。原创 2025-03-17 16:39:11 · 111 阅读 · 0 评论 -
lora矩阵实际是base模型的压缩表达,为什么在推理中还是要再次使用base模型和lora模型。为什么不能直接使用lora模型
lora矩阵实际是base模型的压缩表达,为什么在推理中还是要再次使用base模型和lora模型。为什么不能直接使用lora模型原创 2025-03-17 16:36:14 · 14 阅读 · 0 评论 -
在LORA训练中,LORA模型的矩阵的行列是多少
在LORA训练中,LORA模型的矩阵的行列是多少:$W_{new}=W + \frac{\alpha}{r}BA$## 为什么lora的矩阵还要设置缩放因子 :通过调整缩放因子 α,我们可以根据具体任务的需求,灵活控制LoRA模块对Base模型的微调程度,以达到更好的训练效果。原创 2025-03-17 16:33:31 · 113 阅读 · 0 评论 -
LoRA 缩放因子(`lora_alpha`)的作用原理
在 LoRA(Low-Rank Adaptation)方法中,主要是对预训练模型的权重矩阵进行低秩分解,以减少可训练参数的数量。假设原始的权重矩阵为 WWW,在 LoRA 中,权重矩阵的更新可以表示为:Wnew=W+αrBAW_{new} = W + \frac{\alpha}{r}BAWnew=W+rαBA其中:LoRA 缩放因子 α\alphaα 的作用是调整低秩矩阵 BABABA 对原始权重矩阵 WWW 的更新幅度。通过除以 rrr 进行归一化,使得不同秩 rrr 的情况下,αr\frac{\al原创 2025-03-17 16:26:10 · 26 阅读 · 0 评论 -
AdaLoraConfig 参数配置解释
【代码】AdaLoraConfig 参数配置解释。AdaLoraConfig 参数配置解释1. `init_r`2. `lora_alpha`3. `target_modules` :layers.0.attn.q_proj", "layers.0.attn.v_proj4. `lora_dropout` :lora_dropout = 0.0015. `bias`6. `task_type`原创 2025-03-17 16:22:15 · 28 阅读 · 0 评论 -
Cluster Computer(SCI1区)投稿常见问题
Cluster Computer投稿常见问题怎么查询sci投稿的详细时间节点怎么查看sci投稿期刊邀请几个审稿人,几个审稿接受邀请**一、格式问题:作者简介与照片添加****二、审稿周期长:催稿邮件模板****三、查重超标(阈值通常20%)****四、语言润色:非母语者的痛点****五、接收率低:如何提高中稿概率?****六、其他实用技巧****避坑指南**原创 2025-03-17 14:16:53 · 769 阅读 · 0 评论 -
探索可变参数提升不变学习以增强分布外泛化能力
EVIL通过动态区分可变与不变参数,实现了对分布噪声的鲁棒性优化。其核心在于不仅关注参数重要性,更关注参数对分布变化的敏感性,为OOD泛化提供了新的解决方案。原创 2025-03-17 10:34:27 · 52 阅读 · 0 评论