自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(106)
  • 收藏
  • 关注

原创 Qwen3-VL-8B和4B训练时候的GPU使用率低下

https://github.com/hiyouga/LlamaFactory/issues/9282

2026-01-13 16:10:01 40

原创 cuda core 和 tensor core

GPU中的CUDA Core和Tensor Core分别承担不同的计算任务:CUDA Core是通用计算单元,支持FP32/FP64/INT32等多种精度,灵活性强但速度相对较慢;Tensor Core则是专用AI加速单元,专注于矩阵乘加运算,支持FP16/BF16/INT8混合精度,速度比CUDA Core快5-10倍。两者协同工作,Tensor Core处理核心AI计算,CUDA Core处理其他逻辑。在深度学习训练中,使用支持Tensor Core的显卡并启用混合精度可大幅提升性能。

2025-11-26 14:24:06 845

原创 大模型学习

https://zhuanlan.zhihu.com/p/1909378134261895360

2025-11-26 11:36:36 341

原创 all_gather 与all_reduce的区别

摘要:all_gather和all_reduce是分布式训练的两种核心通信操作,本质区别在于:all_gather让所有进程获得完整数据集(如交换零食后每人拥有全部种类),数据量会倍增;all_reduce则让所有进程获得聚合结果(如糖果总数),数据量不变。前者用于拼接数据(如张量并行),后者用于聚合数据(如梯度平均)。关键区别在于all_gather是"集齐碎片",all_reduce是"计算共同结果",分别对应不同的分布式训练需求。

2025-11-14 17:46:39 1069

原创 分布式训练中的各种名词

有 2 个仓库(node0 和 node1),每个仓库 4 个工人(worker0~3,对应 4 张卡),共 8 人(world size=8)。每个工人有个全局编号(rank0~7)和仓库内编号(local rank0~3)。如果箱子分 8 块(数据并行 DP):每人搬 1 块,搬完后汇总位置(all-reduce),确保对齐。如果箱子太大,单块也很重(模型层太大):把一块再劈成 2 半(TP=2),2 人抬一半,抬完拼起来(all-gather)。

2025-11-14 17:44:53 748

原创 扩散模型后训练-DPO

摘要:扩散模型通过去噪学习图像生成,DPO(Diffusion Preference Optimization)方法进一步优化该过程。传统扩散模型训练时学习真实图像特征及对应文本关系,而DPO通过对比学习让模型更倾向生成符合人类偏好的图像。具体步骤:1)用预训练模型生成多张候选图,通过CLIP/PickScore自动筛选优劣配对;2)训练时同时处理带噪的好/坏图及文本提示,预测去噪结果;3)通过特殊损失函数使模型对好图预测更准、坏图预测更差;4)反向传播微调参数。

2025-11-13 16:21:48 573

原创 大模型强化学习GRPO5-旧策略与新策略

摘要:GRPO算法中,旧策略和新策略是同一模型在不同训练阶段的状态,通过"生成→对比→更新"的闭环实现渐进优化。旧策略作为基准线,新策略基于反馈对参数微调,两者在训练开始时参数相同但角色不同:旧策略是固定参考,新策略是可调变量。参数更新时机遵循每轮训练后集中调整的原则,通过概率比和优势值计算优化方向,确保模型稳步改进而不偏离。整个过程类似学生通过错题分析逐步提升解题能力,实现高效稳定的强化学习。

2025-11-13 15:45:16 774 1

原创 大模型强化学习GRPO4-概率比与KL散度

概率比:聚焦 “单个答案”,告诉模型 “这个答案你应该更爱 / 更恨”(比如回答 1 的概率比 3.12>1,模型会更倾向于生成它)。KL 散度:聚焦 “整体行为”,告诉模型 “你最近变得太离谱了,收敛点”(比如 KL=0.5 时,约束权重会加大,强制模型贴近旧策略的基础能力)。两者结合,既保证模型朝着 “生成优质答案” 的方向优化,又避免模型 “为了追求优质答案而彻底忘本”。

2025-11-13 15:38:49 914

原创 大模型强化学习GRPO3-大白话拆解目标函数

文章摘要:本文用通俗语言解析了优化模型回答质量的数学方法。核心目标函数包含三部分:1)概率比反映模型回答偏好的变化;2)优势加权概率比引导模型偏向优质答案(正优势加分,负优势减分);3)KL散度约束防止模型过度偏离原始能力。通过实例计算展示了目标函数的运作逻辑:模型学习时会提高优质答案概率比,降低劣质答案概率比,同时控制调整幅度。相比PPO方法,GRPO目标函数直接使用组内相对优势值,无需额外奖励模型,具有计算复杂度低、约束更灵活的特点。

2025-11-13 15:36:08 594

原创 大模型强化学习GRPO2-简易训练流程

摘要:本文以小学生解方程2x+3=7为例,详细演示GRPO训练四步流程。首先模型生成3个候选答案(含正确和错误解法);其次根据准确性和格式进行评分(最高2分);然后计算相对优势值进行组内排名(正确解法+0.7,错误-1.4);最后通过概率比和KL散度约束优化模型参数。经过训练,模型能自动淘汰错误解法,保留正确推理路径(如"减3得2x=4→x=2"),格式错误率降至2%。相比传统PPO,GRPO具有组内竞争、动态校准和低成本优势,无需额外奖励模型即可实现高效优化。

2025-11-13 15:30:30 815

原创 大模型强化学习GRPO-1

GRPO训练:组内竞争驱动的模型优化新范式 GRPO创新性地采用组内竞争机制替代传统的外部奖励模型,大幅提升训练效率和模型性能。其核心特点包括:1)通过组内答案对比自动生成相对优势值,省去独立奖励模型的显存开销;2)结合KL散度约束保持训练稳定性,崩溃率降低至2.3%。

2025-11-13 15:24:57 948

原创 大模型强化学习-DPO

DPO(直接偏好优化)是一种高效的大模型微调方法。它通过比较"好回答"和"坏回答"直接优化模型参数,而不需要复杂的奖励建模和强化学习。DPO采用巧妙数学方法同时提升优质回答的生成概率,压制低质回答的概率,重塑模型的输出分布。相比传统RLHF方法,DPO更简单稳定,计算成本更低,让模型输出更符合人类偏好。其核心在于通过成对比较数据直接调整模型的概率分布,而非精确控制每个输出。

2025-11-13 11:52:53 938

原创 学习记录aigc

大模型中的位置编码ALiBi,RoPE的总结和实现_alibi位置编码-CSDN博客。

2025-06-06 10:59:55 526

原创 AIGC-SD9、知识点

Rectified Flow 原理简介与示例代码解读-CSDN博客。

2025-06-05 14:51:39 1344

原创 AIGC-SD8、AIGC知识点

AI绘画基础:介绍一下OFT(Orthogonal-Finetuning)微调技术Stable Diffusion 3的Text Encoder有哪些改进?Sora的最新功能有哪些?Sora支持哪几种多模态输入?LayerNorm有什么作用?不同模态的数据如何进行Token化操作?介绍一下机器学习中的Huber-Loss损失函数介绍一下机器学习中不同聚类算法的性能特点AI服务的Python代码用PyTorch框架重写优化的过程中,有哪些方法论和注意点?

2025-06-05 14:50:18 615

原创 AIGC-SD7、AI视频生成

1、一句话亮点:当文本-视频生成也不需要额外数据训练,只需要基于现有的diffusion-model 如Stable Diffusion能力调整即可实现,解决生成视频帧间不一致问题,是不是很心动2、FateZero: 融合注意力机制的Zero-shot 高质量视频编辑。

2025-06-05 14:49:31 341

原创 AIGC-SD6、AIGC-3D

一句话总结:提供了一种两阶段优化方案:一阶段基于输入图片,通过神经辐射场及扩散模型,生成全新其他视角的图像。二阶段将粗模转化成含有精细纹理点云模型,同时解决噪声点云的引入问题。

2025-06-05 14:48:21 247

原创 AIGC-SD5、高效微调

虽然 LoRA 具有参数的高效性 parameter-efficient, ,但它存在两个主要问题:首先,LoRA 文件的大小是固定的,在训练后无法修改,如果我们需要更改其中的 Rank 秩数,那么只能从头开始训练,在训练过程中调整 Rank 秩数然后再次生成新的模型。DyLoRA 可以同时学习低于你指定的 Rank 的各个 Rank 的 LoRA,这便导致训练好的 DyLoRA 模型文件的 Rank 是可轻易调整的,因此当你想要选择最佳 Rank 秩时它非常有用且高效。最初的 LoRA 在提出时是针对。

2025-06-05 14:46:57 911

原创 AIGC-SD4、aigc前沿算法

暂无。

2025-06-05 14:45:32 147

原创 AIGC-SD3、控制

本文提出一种两阶段多概念生成方法 OMG,一阶段先不用特定概念信息生成一张垫图,确定构图布局,然后提取垫图全面的视觉信息(mask 和 attention map),二阶段将各角色的特定概念信息作用于对应的 mask 区域,避免信息泄露,属性错乱,并复用一阶段的 attention map,维持构图布局不变。controlnet基于深度图生图的效果很好,但需要精确的深度图(这本身就是有挑战性的),为此,作者提出了loose control,一种通用版本(更松散的)的深度图控制。(a)默认奖励微调策略管道。

2025-06-05 14:44:33 906

原创 AIGC-SD2、一致性

风格特定块的特征注入:InstantStyle将参考图像的特征专门注入到风格特定的块中,避免了风格泄漏,并省去了繁琐的权重调整过程,这一点在参数更重的设计中尤为突出。预训练的ControlNet也可用于布局控制生成。PhotoMaker是一个文本到图像的生成方法,它接收多个输入ID图像(Identity Images),并生成一个基于文本提示的新图像,同时保留输入ID的特征。延续 IP-Adapter 思路,只需要一张参考图即可直接生成和参考图风格相似的图,不需要依赖于复杂的配对数据集或者额外的模块。

2025-06-05 14:43:15 720

原创 AIGC-SD1、原版SD

ADD是两个损失函数来进行蒸馏的,第一个是Adversarial loss(对抗损失),用了一个Discriminator(判别器)来判断生成图片跟真实图片的区别,同时避免其他蒸馏方法中出现的模糊和其他人造的感觉。SDXL-Turbo的两个loss的ADD方案,一个去确保生成质量(Adversarial loss,GAN的核心思想),一个去确保跟原模型的一致性(Distillation loss)使用了几个简单但是非常有效的训练技巧,包括图像尺寸条件化策略,图像裁剪参数条件化以及多尺度训练等。

2025-06-05 14:42:13 1115

原创 多模态大模型3、推理

无非是将V1计算逻辑中的内外循环相互交换,以此减少在shared memory上的读写次数,实现进一步提速。那当你交换了循环位置之后,在。层面就可以配套做一些并行计算优化。这就是V2的整体内容。图解Mixtral 8 * 7b推理优化原理与源码实现。

2025-06-05 14:41:03 234

原创 多模态大模型2、大模型训练

当前主流大模型使用的Normalization主要有三类,分别是Layer Norm,RMS Norm,以及Deep Norm。

2025-06-05 14:33:20 336

原创 多模态大模型1、概览与前置任务

tokenizer原理与算法:BPE,ByteBPE, wordpiece,unilm,sentence-piece。tokenizer训练:sentence-piece。典型的transformer架构。

2025-06-05 14:31:31 438

原创 知乎好文汇总

https://zhuanlan.zhihu.com/p/9613363595

2025-06-05 14:29:51 110

原创 CogVLM2报错

transformers 版本问题。

2024-12-27 14:37:34 289

原创 LLM推理需要占用多少显存

搬运:AI开发者de频道:专题文章显示

2024-07-19 21:58:39 254 1

原创 KeyError: ‘dinov2‘

【代码】KeyError: ‘dinov2‘

2024-03-25 19:30:54 543

原创 1、Pandas 数据结构:从 Series 到 DataFrame

DataFrame 是 Pandas 中的二维表格型数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame 既有行索引也有列索引,它可以被看作是由 Series 组成的字典。Series 是 Pandas 中的一维数组形式的数据结构,它可以包含任何数据类型(整数、字符串、浮点数、Python对象等)。Series 基本上可以被视作一个定长的有序字典,因为它是索引值到数据值的一个映射。可以是字典、ndarray、Series 或另一个 DataFrame。

2024-01-22 11:12:06 1206

原创 Numpy系列文章

1、NumPy简介:开启Python科学计算之旅2、NumPy ndarray:多维数组对象基础3、Numpy中的通用函数4、ndarray排序、搜索和计数函数5、NumPy 高级索引和切片6、Numpy形状操纵7、Numpy数组堆叠8、Numpy数组拆分9、Numpy视图与拷贝10、Numpy广播机制11、NumPy 花式索引与索引技巧

2024-01-22 10:36:40 631

原创 8、VAE:变分自编码器

VAE它本质上就是在我们常规的自编码器的基础上,对encoder的结果(在VAE中对应着计算均值的网络)加上了“高斯噪声”,使得结果decoder能够对噪声有鲁棒性;而那个额外的KL loss(目的是让均值为0,方差为1),事实上就是相当于对encoder的一个正则项,希望encoder出来的东西均有零均值。那另外一个encoder(对应着计算方差的网络)的作用呢?它是用来动态调节噪声的强度的。

2024-01-21 16:16:24 3364

原创 11、NumPy 花式索引与索引技巧

花式索引是指使用整数数组作为索引来访问数组中的元素。这种方式与基本的索引不同,它允许我们一次性获取数组中不连续的多个元素。花式索引也适用于二维数组,可以一次性访问数组中的多行、多列或多个不连续的元素。布尔索引允许我们使用布尔数组作为索引来选择数组中满足特定条件的元素。我们可以组合使用基本切片和花式索引来实现更复杂的数据选择。函数可以帮助我们使用花式索引来选择多维数组中的特定区域。NumPy 还提供了更多索引技巧,使数组操作更加灵活。

2024-01-21 15:11:35 1611

原创 10、Numpy广播机制

NumPy 的广播机制允许我们在不同形状的数组之间执行这些运算,而无需手动调整它们的尺寸。

2024-01-21 14:54:09 728

原创 9、Numpy视图与拷贝

NumPy 中的视图、浅拷贝和深拷贝提供了不同级别的数据复制和引用机制。视图(类似于浅拷贝)允许您在不复制数据的情况下,对数组的子集进行操作;而深拷贝确保原始数据的完整独立性,允许您在保留原始数据的同时进行操作。

2024-01-20 19:16:48 752

原创 8、Numpy数组拆分

数组拆分允许我们根据指定的索引位置或者等份分割的方式将一个数组分解为多个子数组。主要使用的函数是和,以及它们的等价函数。函数可以按指定的索引位置对数组进行分割,它接受一个数组和一个分割点列表作为参数,并返回一个包含分割后子数组的列表。用于沿数组的水平轴拆分数组,它是np.split的特殊情况,适用于二维数组。用于沿数组的垂直轴拆分数组,它也是np.split的特殊情况。允许进行不等分拆分,即子数组大小可以不一致。

2024-01-20 18:59:13 1668

原创 7、Numpy数组堆叠

np.hstack。

2024-01-19 21:29:18 1022

原创 6、Numpy形状操纵

在上述代码中,我们将一个 1x3x1 的三维数组压缩成了一个 3x1 的二维数组。这种技术常用于将一维数组转换为列向量或行向量,以符合某些算法的输入要求。这将创建一个新的 2x3 数组,其中原始数组的元素被复制以填充新数组。方法用于从数组的形状中去除单维度的条目,即那些大小为 1 的维度。,但它可以改变数组的大小。可以在数组中增加一个新的轴,也就是增加一个维度。,让 NumPy 自动计算这个维度的大小。会重复数组中的数据以填充新数组。来匹配原始数组的总大小。总是返回一个新的数组,而。

2024-01-19 21:17:50 641

原创 5、NumPy 高级索引和切片

切片操作允许访问数组的子集。在 NumPy 中,可以对多维数组进行切片,就像处理一维数组一样简单。这里首先选择了第0行和第2行,然后在每一行上取第1列和第3列(由于步长为2,所以只取到了第3列)在多维数组中,可以使用整数列表或数组来进行索引。布尔型索引允许我们根据条件选取数组中的元素。在实践中,可以组合使用切片与高级索引以实现更复杂的操作。在多维数组中,可以使用元组形式的索引来选择特定的子区域。这里选择了第1至第2行和第1至第2列的子矩阵。将按照给定的顺序重新排列数组的行。将包含第0行和第2行的内容。

2024-01-18 13:33:14 783

原创 7、DETR:基于Transformer的端到端目标检测

尽管在速度上可能不如一些专门为实时应用设计的检测模型,DETR的架构为未来的研究和应用提供了一个有趣的新方向。包括编码器和解码器。,可以发现,不同于Faster RCNN, RetinaNet等方法在特征的每个像素上构建稠密的anchor不同,detr只用少量稀疏的anchor(object queries)做预测,这也启发了后续的一系列工作。:DETR彻底改变了目标检测的传统流程,实现了真正的端到端训练,将图像特征提取、目标定位和分类任务全部整合在Transformer中,提升了模型的整体优化效果。

2024-01-18 13:16:15 1331

hash-weights-str.txt

hash-weights-str.txt

2025-06-05

视频去重hash-funcs-str.txt

视频去重hash-funcs-str.txt

2025-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除