自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(718)
  • 资源 (10)
  • 收藏
  • 关注

原创 A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding

来源Q. Wang, S. Wang, H. Fang, L. Chen, L. Chen and Y. Guo, “A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding,” 2020 IEEE International Conference on Communications Workshops (ICC Workshops), Dublin, Ireland, 2020, pp. 1-6, doi: 10.1

2020-09-07 14:09:38 1084

原创 每日强化学习

20200901强化学习阅读:https://blog.csdn.net/qq_30615903/article/details/80739243

2020-09-01 15:23:39 166

原创 Relation extraction文章

Others2018No.FigureTitleAuthorsPub.Links5CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionKun Ho Kim, Oisin Mac Aodha, Pietro PeronaCVPR 2018 (Spotlight)paper4[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xk

2020-06-12 07:58:29 868

原创 凸优化之内点法

Convex Optimization Stephen Boyd Department of Electrical Engineering Stanford University 第11章本文为笔者结合原书及博客https://blog.csdn.net/dymodi/article/details/46441783 记录自己相关解释原始问题原始问题对应的拉格朗日公式为:利用障碍函...

2020-04-05 11:37:35 1817

原创 GloVe: Global Vectors for Word Representation必记

关于算法原理参考:下面是Relation with skip gramskip gram:接下来在整个corPus 中训练:但在vast corpus 难以求所有的Qi,jQ_{i,j}Qi,j​,采用近似但对于两分布中的交叉熵损失是有弊端的:即低概率高权值并且上式中的Qi,jQ_{i,j}Qi,j​还是难以normalized,因此不归一化带来的问题是Qhat,Pha...

2020-03-04 11:41:32 291

原创 grahp attention networks(GAT 学习必记)

深入理解图注意力机制向往的GAT(图注意力模型)

2020-02-20 15:12:26 653

原创 semi -supervised classification with graph convolutional networks学习必记

1 主要解决的问题半监督学习:用于少量节点标签未知,例如文本、citation network、知识图谱分类2 主要思想采用图卷积中的一阶局部近似(即K=1),这部分的理解可以参考Chebyshev多项式作为GCN卷积核当K=1 时有两个参数,模型scales linearly in the number of graph edges ,同时可以表征局部图结构和节点的特征:3. 半...

2020-02-19 14:27:03 421

原创 Convolutional Sequence to Sequence Learning学习心得

为什么使用CNN学习序列表示和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如下图。和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如上图。Hierarchy representation如图1,只需要三次CNN operation ,而需要 7 次 r...

2020-02-18 16:25:43 689

原创 Sequence to Sequence Learning with Neural Networks学习笔记

论文的主要创新点提出了序列到序列的学习方法提出的背景DNN的限制:输入和输出向量维度固定,实际上很多序列问题中的序列长度不是已知先验单个RNN 的限制:输入和输出等长,且要一一对齐且对齐已知,无法应用到输入输出不等长且对应关系为非montonic解决方案两个RNN理论可行一个负责将输入充列map 为固定大小的vector(背景向量,含有整个输入句子的信息),另一个RNN将背景向列...

2020-02-17 16:44:20 370

原创 Attention Is All You Need(Transformer )

今天是2020年2月1日,笔者学习了Attention Is All You Need(Transformer )论文,可以在sequence to sequence 模型中用multi head self -attention 代替RNN,可以并行计算输出,其中multi head 的作用可以集成不同的上下文attention,由于knowledge leve有限,代码层面有待学习...

2020-02-01 16:54:11 199

原创 机器学习每日阅读更新

方差、偏差与欠拟合及过拟合

2020-01-30 12:54:25 194

原创 自然语言处理(机器翻译IBM模型 系列)

机器翻译方法概述直接转换法基于规则的翻译方法基于中间语言的翻译方法基于语料库的翻译方法- 基于事例的翻译方法- 统计翻译方法- 神经网络机器翻译基于规则的翻译过程分成6个步骤:(a) 对源语言句子进行词法分析(b) 对源语言句子进行句法/语义分析© 源语言句子结构到译文结构的转换(d) 译文句法结构生成(e) 源语言词汇到译文词汇的转换(f ) 译文词法选择与生成...

2019-12-25 16:29:35 3904

原创 概率图模型

例对于5节点,给定1和2,节点5和3,4都独立

2019-12-23 10:01:45 226

原创 【RL]权重更新

好的,我们来把这个例子彻底讲清楚,搞明白这个条件到底在做什么。首先,意味着。我们总共有8个,它们的rank从 0 到 7。

2026-01-30 12:04:00 801

原创 【RL]分离部署与共置模式详解

框架通过函数判断两个worker是否共置1# 部分重叠的情况返回False。

2026-01-30 12:03:01 977

原创 【RL]分离部署与共置模式详解

框架通过函数判断两个worker是否共置1# 部分重叠的情况返回False。

2026-01-30 11:48:06 462

原创 【RL】 actor组之间的关系

而不是多个worker组成一个TP。

2026-01-30 11:25:46 839

原创 【Rl】权重更新

是ROLL框架中负责的核心组件,主要用于将训练集群的模型参数同步到推理集群。

2026-01-30 11:17:54 876

原创 【R L】 worker与GPU进程数的关系?

一个cluster内的,而是指一个包含多个Worker的集群,每个Worker是一个独立的Ray actor进程。

2026-01-30 10:37:43 555

原创 【RL】 cluster间冲突

多个cluster 怎么通信的, 是通过port吗?

2026-01-29 17:23:19 559

原创 【RL】ROLL cluster 内worker 通信方式

Mermaid 渲染失败: Trying to inactivate an inactive participant (ray)总而言之,这个架构将**编排(Cluster和执行(Worker)**完美地分离开来,利用Ray强大的底层分布式能力,实现了一个清晰、可扩展且功能强大的分布式计算框架。cluster 中 port干嘛用的,runtime_env = RuntimeEnv(env_vars=env_vars), 什么时创建多个worker,worker 中的port 又是干嘛的?

2026-01-29 16:54:18 562

原创 【RL】ROLL中cluster 与 worker 的关系

Cluster是Worker的管理器和协调器,Worker是实际的执行单元。Cluster负责创建、初始化和管理多个Worker实例,而Worker作为Ray actor执行具体的模型操作和计算任务。

2026-01-29 16:34:35 605

原创 【梯度检查点】

OLOL​的内存复杂度来源于一个数学上的最优权衡。通过将网络划分为L\sqrt{L}L​个大小为L\sqrt{L}L​的块,并在块边界设置检查点,我们可以在存储检查点的内存开销和重新计算一个块所需的临时内存开销之间达到一个平衡点,从而实现总内存占用的最小化。这种策略使得原来与模型深度L线性相关的内存需求,转变为与L的平方根相关,这对于训练非常深的网络来说,是一个根本性的改变。

2026-01-28 21:06:32 555

原创 【RL】QLORA

常规的16位微调:这是一种“财大气粗”的方法。它把整个高精度(16位)模型的所有部分(权重、梯度、优化器状态)都放在GPU里,并更新每一个参数。效果好,但对硬件要求极高,通常需要多张顶级GPU(如A100 80GB)才能完成。QLORA 的创新:QLORA正是为了解决这个内存瓶颈。不加载16位权重:将模型权重用更低的精度(4位)加载,极大地减少了第一项(模型权重)的内存占用(从130GB降低到约33GB)。不更新所有参数:冻结大部分4位权重,只引入并更新非常小的LoRA适配器。

2026-01-28 20:47:15 566

原创 【RL】ROLL中各DP数据同步

mpu函数返回值含义当前进程的数据并行局部 Rank (它的dp_rank坐标)当前进程的流水线并行局部 Rank (它的pp_rank坐标)当前进程的张量并行局部 Rank (它的tp_rank坐标)当前进程的上下文并行局部 Rank (它的cp_rank坐标)这些函数是 Megatron 中进行条件判断和逻辑分支的基石。--> “只有流水线的第一阶段才执行此代码块”。--> “只有每个张量并行组的领导者(局部Rank 0)才执行此代码块”(常用于打印日志或保存非切分的权重)。

2026-01-24 12:28:37 649

原创 【RL 】ROLL伊步

用户问了一个很好的问题:为什么每个训练步需要 8 次 backwardpass,就要设置enable_old_logprobs_recompute 为 True?关键问题是:在多次 backward pass 之间,模型参数会发生变化!因此,当 backward_steps_per_rank > 1 时,必须在每次 backward pass之前重新计算old_log_probs,确保基于当前时刻的模型参数。这样可以避免严重的 off-policy问题,保证训练的稳定性和准确性。

2026-01-24 12:07:16 498

原创 【大模型推理】VLLM 引擎使用

和:主控制器进程(pid=8336),负责协调和管理分布式推理1:工作进程(pid=14610),运行在 Ray 管理的进程中,执行具体模型推理任务2。

2026-01-21 16:14:18 677

原创 【大模型推理】RAY进程多机启动

主节点的ray_start_head进程退出而raylet不会成为孤儿进程的原因双fork技术:Ray使用经典的双fork技术使守护进程脱离init/systemd接管:raylet最终被PID 1的进程接管设计意图:主节点作为服务应独立于启动脚本生命周期差异主节点:长期服务,独立运行从节点:临时工作,需要监督这种设计确保了Ray集群的高可用性:即使启动脚本崩溃,Ray服务本身仍能继续运行。而对于工作节点,则需要紧密控制生命周期,避免资源泄漏。

2026-01-19 12:18:01 575

原创 【RL】_post_process_rewards grpo归一化

如果步骤 2 的条件不满足,函数会执行到这里,返回的。

2026-01-13 15:10:46 557

原创 【RL] advantages白化与 GRPO中 advantages均值,怎么变化,

这与GAE完全不同。

2026-01-10 18:13:12 1037

原创 【RL】GRPO advantage 应该怎么变化?

对于无Critic的GRPO优势是组内相对度量,组均值始终为零(如果使用优势方差(而非均值)更能反映训练进展随着模型收敛,优势方差通常会减小,表明策略变得一致和稳定优势不会持续上升,因为它是相对比较,且均值为零是数学保证的回报的绝对水平(是否在提升)优势的方差(是否在减小)策略熵(是否收敛到确定性策略或保持适当探索)优势均值的长期趋势应该是围绕零波动,而非单调变化。

2026-01-10 18:04:24 771

原创 【RL】advantages 与 ratio之间的关系

| |v | v| | |v | v| | v| |v || |v || || || |v vvvratio和advantages是PPO算法中两个正交(Orthogonal)的组件。advantages由奖励信号计算而来,提供了**“学什么”(方向和强度)的信息。ratio由新旧策略的概率计算而来,提供了“学了多少”**(策略变化程度)的信息,并用于修正学习过程。它们在最终的PPPO损失函数中才被结合起来,共同决定了最终的梯度更新。

2026-01-10 17:38:44 1048

原创 【RL】importance_sampling Ratio的计算

裁剪区间是,即[0.8, 1.2]。clipfrac计算出每个token的**ratio**(新旧策略概率比)。定义PPO的裁剪区间 [1 - ε, 1 + ε]。创建一个布尔掩码(boolean mask),标记出所有ratio值小于1 - ε或大于1 + ε的位置。计算这个掩码中True(即被裁剪的token)的数量,然后除以总的token数量。这个最终的比例就是clipfrac,它是一个介于0和1之间的标量,直观地反映了在当前训练步中,策略更新的“激进”程度。好的,我们来详细讲解。

2026-01-10 16:45:35 878

原创 【RL】中Token级策略梯度损失

为了让这个概念更清晰,我们来对比一下GRPO的聚合方式和标准的PPO(通常按token平均)的聚合方式。聚合方式描述agg_loss中的模式物理意义标准PPO (Token-level)将所有样本的所有有效token的损失放在一起,直接计算总平均值。每个token对最终损失的贡献是平等的。长序列会比短序列有更大的影响力。先计算每个样本的平均token损失,再计算所有样本的平均损失。每个样本(序列)对最终损失的贡献是平等的,无论其长短。这更符合GRPO的思想,即优化整个序列的质量,而不是单个token。

2026-01-10 15:05:49 995

原创 【RL】 kl loss

这篇文章的核心思想是:在像 PPO 这样的算法中,我们需要在每一步计算新旧策略之间的 KL 散度,以确保更新步子不会迈得太大。然而,有多种估算公式,有些公式看起来很直观,但实际使用时方差很大(会导致数值跳动剧烈),而另一些稍作修改的公式则表现得更稳定、偏差更小。曲线变化很明显(剧烈波动),其中一个潜在原因可能就是你使用的 RL 框架在计算 KL 散度时,采用了方差较大的估算器(比如。你的那张“剧烈变化”的图,正是在数据差异和估算器特性的双重作用下产生的。的估算,每一批(batch)的数据都不同,导致。

2026-01-10 12:03:56 526

原创 【RL】HybridFlow 1 摘要

传统RL框架的单控制器范式在RLHF中效率低下,因为每个节点都是一个分布式LLM训练或生成程序,导致大量的控制分派开销。现有RLHF系统采用多控制器范式,虽然减少了分派开销,但由于分布式计算与数据通信的深度嵌套,使得框架不灵活,难以适应不同的RLHF算法和模型配置。HybridFlow通过其创新的混合编程模型,实现了RLHF数据流的灵活表达和高效执行。,将单控制器范式用于节点间(inter-node)的协调,将多控制器范式用于节点内(intra-node)的分布式计算。

2026-01-08 17:29:06 836

原创 【大模型训练】Efficient MoE Pre-training at Scale on 1K AMD GPUs with TorchTitan

TorchTitan 是 Meta 推出的一款原生于 PyTorch 的蓝图,专为跨多 GPU 和多节点集群的大规模训练而设计。它将针对现代大语言模型(LLM)和混合专家(MoE)模型的成熟方案打包成一个单一、可配置的训练栈,让您可以将同一套代码路径从早期实验复用到全面规模的运行中。配置优先的扩展方式只需在一个 TOML 文件中设置流水线并行、张量并行、数据并行或专家并行的度数,TorchTitan 就能自动构建作业、连接 NCCL/RCCL 通信组,并在一个 GPU 或一千个 GPU 上运行相同的脚本。

2026-01-08 16:14:39 665

原创 【RL】token_level_rewards

在大多数强化学习任务中,奖励通常是在序列结束时才给出,这被称为“稀疏奖励”(sparse reward)。对于像我们这样的数学解题任务,情况更是如此:只有当模型完整生成答案后,我们才能判断对错,并给出奖励。的计算过程本质上是一个非常巧妙的技巧,它利用了布尔运算和类型转换,将一个“是否正确”的判断问题,变成了一个可以直接计算“正确率”的数值问题。就是我们所求的“正确率”,表示这个批次中有 50% 的样本是正确的。的内容和形状是完全一致的,都代表了每个样本的最终得分。是一个张量(Tensor),它的形状是。

2026-01-05 15:16:29 532

原创 【大模型推理】sglang 流式并行采样

初始化占位:创建一个与并行采样数n等长的chunks列表,作为每个并行序列结果的最终存放位置。异步消费数据流:通过async for循环,不断地从 SGLang 的数据管道中取出数据块(chunk按索引分发和覆盖:根据每个chunk中的index字段,将其存放到chunks列表的正确位置,并用最新的chunk覆盖掉之前收到的同一序列的旧chunk。保留最终状态:当循环结束时,chunks列表中的每个元素都代表了其对应并行序列的最终状态(要么是包含完整信息的最终块,要么是在失败情况下的None。

2025-12-31 15:34:36 859

原创 【RL】get_batch 处理方式

好的,我们换一种方式,用更形象、更详细的图解来说明 函数的整个过程。请耐心跟着我一步步走。我们的目标: 将两个不同长度的文本序列(样本)打包成一个批次,让 GPU 高效处理。并行环境:输入数据 (在一个微批次里):我们将重点关注 在 上的执行过程。这是最关键的一步。THD-style CP 会把每个序列切成 个块,然后 拿走第 0 块和第 3 块。计算块大小:Rank 0 进行“拾取”:拼接:计算块大小:Rank 0 进行“拾取”:拼接:此时,在 上, 变量变成了:第 2 步: 序列打包 (

2025-12-30 14:40:27 737

数字滤波器

数字滤波器设计及应用综合设计,各种matlab,各种程序

2017-12-24

小功率调幅发射机仿真报告

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

MATLAB频谱图

MATLAB关于频谱分析自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

小功率调幅发射机

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

电子线路课程设计

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

交通灯VHDL设计

很好用的交通灯,伴有铃声的程序,实现紧急状况的显示,

2017-12-27

电容振荡器

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

labview 2016y英文版安装及破解教程

详细的介绍了LabVIEW安装过程中遇到的问题以及解决方案,以及可能出现版本的不兼容的问题的操作

2017-12-27

模拟通信中信号角度的调制与解调

5.8基于Labview实现FM调制与检调 5.8.1相应参数设置 载波频率:50 幅度:2 调制信号频率:50 幅度:2 5.8.2 labview 程序框图 5.8.3正弦波调相

2018-04-20

labview实例

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除