- 博客(668)
- 资源 (10)
- 收藏
- 关注
原创 A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding
来源Q. Wang, S. Wang, H. Fang, L. Chen, L. Chen and Y. Guo, “A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding,” 2020 IEEE International Conference on Communications Workshops (ICC Workshops), Dublin, Ireland, 2020, pp. 1-6, doi: 10.1
2020-09-07 14:09:38
1068
原创 每日强化学习
20200901强化学习阅读:https://blog.csdn.net/qq_30615903/article/details/80739243
2020-09-01 15:23:39
158
原创 Relation extraction文章
Others2018No.FigureTitleAuthorsPub.Links5CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionKun Ho Kim, Oisin Mac Aodha, Pietro PeronaCVPR 2018 (Spotlight)paper4[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xk
2020-06-12 07:58:29
862
原创 凸优化之内点法
Convex Optimization Stephen Boyd Department of Electrical Engineering Stanford University 第11章本文为笔者结合原书及博客https://blog.csdn.net/dymodi/article/details/46441783 记录自己相关解释原始问题原始问题对应的拉格朗日公式为:利用障碍函...
2020-04-05 11:37:35
1811
原创 GloVe: Global Vectors for Word Representation必记
关于算法原理参考:下面是Relation with skip gramskip gram:接下来在整个corPus 中训练:但在vast corpus 难以求所有的Qi,jQ_{i,j}Qi,j,采用近似但对于两分布中的交叉熵损失是有弊端的:即低概率高权值并且上式中的Qi,jQ_{i,j}Qi,j还是难以normalized,因此不归一化带来的问题是Qhat,Pha...
2020-03-04 11:41:32
285
原创 semi -supervised classification with graph convolutional networks学习必记
1 主要解决的问题半监督学习:用于少量节点标签未知,例如文本、citation network、知识图谱分类2 主要思想采用图卷积中的一阶局部近似(即K=1),这部分的理解可以参考Chebyshev多项式作为GCN卷积核当K=1 时有两个参数,模型scales linearly in the number of graph edges ,同时可以表征局部图结构和节点的特征:3. 半...
2020-02-19 14:27:03
417
原创 Convolutional Sequence to Sequence Learning学习心得
为什么使用CNN学习序列表示和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如下图。和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如上图。Hierarchy representation如图1,只需要三次CNN operation ,而需要 7 次 r...
2020-02-18 16:25:43
682
原创 Sequence to Sequence Learning with Neural Networks学习笔记
论文的主要创新点提出了序列到序列的学习方法提出的背景DNN的限制:输入和输出向量维度固定,实际上很多序列问题中的序列长度不是已知先验单个RNN 的限制:输入和输出等长,且要一一对齐且对齐已知,无法应用到输入输出不等长且对应关系为非montonic解决方案两个RNN理论可行一个负责将输入充列map 为固定大小的vector(背景向量,含有整个输入句子的信息),另一个RNN将背景向列...
2020-02-17 16:44:20
367
原创 Attention Is All You Need(Transformer )
今天是2020年2月1日,笔者学习了Attention Is All You Need(Transformer )论文,可以在sequence to sequence 模型中用multi head self -attention 代替RNN,可以并行计算输出,其中multi head 的作用可以集成不同的上下文attention,由于knowledge leve有限,代码层面有待学习...
2020-02-01 16:54:11
194
原创 自然语言处理(机器翻译IBM模型 系列)
机器翻译方法概述直接转换法基于规则的翻译方法基于中间语言的翻译方法基于语料库的翻译方法- 基于事例的翻译方法- 统计翻译方法- 神经网络机器翻译基于规则的翻译过程分成6个步骤:(a) 对源语言句子进行词法分析(b) 对源语言句子进行句法/语义分析© 源语言句子结构到译文结构的转换(d) 译文句法结构生成(e) 源语言词汇到译文词汇的转换(f ) 译文词法选择与生成...
2019-12-25 16:29:35
3878
原创 【LORA】
这意味着,即使模型生活在一个拥有数十亿参数的高维空间中,但使它适应新任务所需的权重变化实际上可以被一个更小的、低维度的子空间所描述。相反,我们可以冻结预训练模型的绝大部分参数,只微调一小部分新增的或特定的参数。的值越高,意味着可训练的参数越多,这可能带来更好的性能,但代价是训练时间更长,并且生成的模型检查点(checkpoint)文件也更大。LoRA 的关键思想非常巧妙:它并没有直接修改原始模型的权重,而是在模型的特定层旁边注入两个更小的、可训练的“低秩”矩阵(我们称之为。无疑是最重要的一个。
2025-12-13 18:12:49
644
原创 【RL】GIGPO
最近,基于组的强化学习(RL)的进展推动了前沿大型语言模型(LLM)在数学推理等单轮任务中的应用。然而,它们在多轮LLM智能体训练中的可扩展性仍然有限。与静态任务不同,智能体与环境的交互会跨越多个步骤,并且通常产生稀疏或延迟的奖励,这使得对单个步骤进行信用分配变得极具挑战性。在这项工作中,我们提出了组内组策略优化(Group-in-Group Policy Optimization, GiGPO)无评判网络(critic-free)、低内存和稳定收敛。GiGPO引入了一个两级结构来估计相对优势:(i) 在。
2025-12-09 23:23:00
1019
原创 【RL】DAPO翻译
好的,这是对您提供的论文《DAPO: An Open-Source LLM Reinforcement Learning System at Scale》的全文翻译。摘要推理扩展(Inference scaling)赋予了大型语言模型(LLM)前所未有的推理能力,而强化学习(reinforcement learning, RL)是激发复杂推理的核心技术。然而,当前最先进的推理LLM(如OpenAI的o1博客和DeepSeek的R1技术报告)的关键技术细节并未公开,因此社区在复现其RL训练结果时仍面临困难。
2025-12-09 18:57:28
767
原创 【RL】DAPO 详解3
图 © 的 “U” 型曲线:代表了模型从探索(初始状态) -> 利用(为了拿分而收敛) -> 再探索(为了避免模式崩溃而增加多样性)的过程。图 (d) 的倒 “U” 型曲线:代表了模型自信度的变化,它与熵的变化趋势正好相反。当模型专注于利用时,自信度最高;当模型开始探索时,自信度下降。这两张图完美地展示了强化学习训练的动态过程,表明该训练不仅成功地优化了奖励(图b),而且通过后期增加探索,有效避免了模型变得过于单一和重复,从而可能生成更丰富、更高质量的内容。
2025-12-09 18:52:56
749
原创 【RL】DAPO详解2
图中对比了“有 token-level loss(w/ token-level loss)”与“无 token-level loss(w/o token-level loss)”两种训练下 actor 模型生成分布的熵随训练步数的变化。好的,我来把公式 (13)(论文中用于 Overlong Reward Shaping 的分段惩罚函数)做一个完整、严格且易于实现的详解:公式、几何意义、为什么这么设计、数值例子、实现伪码、工程注意事项和可替代方案。四、图 5 中性能与熵变化的解释(把现象和机制连起来)
2025-12-09 18:31:24
910
原创 【RL】DAPO 详解1.0
首先把论文中的公式 (5) 原封不动地写出来(为便于阅读我做了排版整理):JGRPO(θ)=E(q,a)∼D, {oi}i=1G∼πθold(⋅∣q)[1G∑i=1G1∣oi∣∑t=1∣oi∣min (ri,t(θ) A^i,t, clip(ri,t(θ), 1−ϵ, 1+ϵ) A^i,t) − β DKL(πθ∥πref)].J_{\text{GRPO}}(\theta)= \mathbb{E}_{(q,a)\sim\mathcal{D},\;\{o_i\}_{i=1}^G\sim\p
2025-12-09 18:09:53
580
原创 【RL】DAPO 数据处理
你首先定义一个或多个模板函数,如。使用@register_chat_template("你的模板名")装饰器将它们添加到全局注册表中。当你需要处理数据集时,调用encode_func = get_encode_function("你的模板名", my_tokenizer)。这会返回一个为你量身定做的函数。。这个设计的优点在于它的可扩展性(想支持新模型,只需添加一个新函数和装饰器)、代码整洁性(逻辑分离清晰)和高效率(利用了批量分词)。
2025-12-08 15:45:16
850
原创 【大模型推理】sglang 进程启动 _launch_subprocesses
清晰的职责分离:主节点处理服务,工作节点专注计算资源效率:避免重复加载分词器等资源可扩展性:轻松添加更多工作节点服务连续性:通过健康检查确保集群可用性这是典型的主从架构(master-worker),在分布式深度学习推理中很常见。好的,我们来详细解释一下这个函数。这个函数是 SGLang 推理引擎(Engine)启动过程中的核心。它的主要职责是初始化并启动构成整个推理服务所需的所有后台进程,并建立它们之间的通信渠道。可以把它想象成一个火箭发射前的总指挥,负责点燃所有引擎并确保它们协同工作。
2025-12-08 12:24:45
951
原创 【RL】Spec 加速RL
下面我用一个清晰的时间线举例,把三条并行的执行线(target 的 RL 训练 / rollout 与推理;drafter 的 spot 训练;以及 speculative decoding 的验证流程)逐步展开,并说明关键数据流、缓冲区与可能的短期不一致如何被 TLT 的设计处理。为了表达清楚,会用到一些符号:把 target model 写作。若句子中出现公式我会用 LaTeX 表示。,其包含(可能复用的)embedding。,其包含 embedding。、单层 decoder。
2025-12-05 15:47:00
871
原创 【RL】ROLL 中driver 进程
Driver node是Ray集群中运行驱动程序的节点,通过函数来判断当前进程是否运行在driver node上2。
2025-12-05 12:42:45
632
原创 【sglang】投机推理
想象一下你在下一个非常厉害的象棋大师(大模型)旁边,你是一个速度很快但棋力一般的棋手(草稿模型: 就是指定了你这个“快棋手”。: 你被允许思考未来5步棋。: 在你的每一步思考中,你不是只看一个最好的走法,而是把4个你觉得不错的走法都摆出来。这样就形成了一个包含很多可能性的“棋局树”。: 象棋大师的精力是有限的,他告诉你:“你虽然摆了很多可能性,但我一次最多帮你检查8个关键局面(词元)的优劣。通过调整这些参数,你可以在加速效果(更高的接受率和更长的匹配长度)和资源消耗。
2025-12-05 12:08:11
1016
原创 【RL】_get_megatron_full_params 权重更新2
输入: 一份完整的货物清单()和每个包裹的限重(过程: 依次拿起清单上的每件货物,估算它的重量,然后决定是放入当前的包裹,还是封上当前的包裹,再拿一个新的空包裹来装。输出: 一系列打包好的包裹(),每个包裹里都有一份货物子清单。这个规划结果,使得后续的迭代器可以安全地、一批一批地处理权重,而不会因为一次性搬运太多“货物”而“累垮”(导致 GPU 显存溢出)。是每个进程的本地输入数据,是分散的、不完整的。是一个全局同步的指令集,告诉所有进程“我们要处理什么、它们在哪、怎么处理”。是执行者。
2025-12-03 17:20:02
1031
原创 【RL】slime 权重更新 元信息收集
name: strsize: intsrc_rank: int # 源rank标识信息冗余: 所有 TP rank 都知道同一个参数的存在及其分片属性,无需额外交换元数据。它们需要交换的是张量数据本身,但这不属于此函数的职责。职责划分: 此函数的任务是生成“蓝图”(元数据),而不是执行“施工”(张量操作)。TP 的“施工”被明确地划分给了。信息足够: 仅通过本地收集和 PP/EP 交换,就已经能构建出足够详细的蓝图,以指导后续的 TP 重组操作。蓝图里已经包含了“此参数需要 TP 重组”的指令。
2025-12-03 16:26:49
960
原创 【大模型推理】小白教程:vllm 异步接口
是并发执行,不是并行执行。确保所有任务都被事件循环接管,并尽快开始执行。每个任务会一直运行,直到遇到一个await表达式,且等待的事情尚未完成。此时它会暂停,让出 CPU,以便事件循环可以运行其他任务。这种“运行-暂停-切换”的模式发生得非常快,给人一种所有任务都在同时推进的错觉,这就是并发的魔力。
2025-12-01 17:17:36
955
原创 【RL】 ROLL Generate Scheduler
和是一种典型的**双向映射(bi-directional mapping)**数据结构,用于在两个不同的标识符之间建立快速查询通道。(多对一): 用于从“具体”到“抽象”。当收到一个具体的request_id的响应时,需要知道它属于哪个抽象的prompt任务。(一对多): 用于从“抽象”到“具体”。当一个抽象的prompt任务的状态发生变化(例如,已完成)时,需要快速找到并操作所有与它相关的具体request实例。因此,
2025-11-30 14:12:31
946
原创 【RL】 ROLL中负载均衡
好的,这是一个非常好的问题,它触及了这个复杂系统设计的核心。我们来逐步拆解 的作用、实现方式,以及这些类之间的关系和整体流程。 是 和 这两个调度器类自身的成员变量(一个字典)。为什么在这里?因为 调度器(Scheduler)是整个系统的“大脑”和“交通指挥官”。它掌握着全局信息,知道有多少个 worker(),也知道自己向每个 worker 分派了多少任务。因此,跟踪每个 worker 的负载并据此做出决策,是调度器最核心的职责之一。将 放在调度器内部,遵循了“谁决策,谁持有信息”的设计原则。负载
2025-11-30 13:53:55
778
原创 【RL】ROLL scheduler
调度 SGLang 的详细流程如下:RLVR Pipeline 通过 Ray 远程调用各域的 1 :2. Scheduler 内部的 SGLang 调度 方法负责实际的 SGLang 调度 2 :请求分发流程:SGLang 策略层接收并处理请求 3 :数据存储机制1. SGLang 返回数据的存储位置SGLang 生成的数据通过回调机制返回到 方法 4 :数据存储结构:数据获取机制1. 轮询等待完成 方法通过轮询机制等待足够的数据完成 5 :2. 数据聚合和返回当收集到足够数据后,S
2025-11-30 13:52:27
917
原创 【RL】 ROLL中负载均衡
好的,这是一个非常好的问题,它触及了这个复杂系统设计的核心。我们来逐步拆解的作用、实现方式,以及这些类之间的关系和整体流程。
2025-11-30 13:39:40
835
原创 【RL】sglang中同步和异步generate
特性运行环境同步函数(普通def异步函数async def执行行为阻塞当前线程非阻塞,让出控制权给事件循环主要目的从同步代码调用并等待异步代码在异步代码内部管理和控制并发操作并发性无。在等待期间,当前线程无法做任何事。有。在await期间,事件循环可以运行其他协程。功能启动并运行一个协程直到完成。等待一个可等待对象,并增加了超时等高级控制。比喻站在原地盯着烤箱,直到面包烤好。把面包放进烤箱,设好定时器,然后转身去切菜。在sglang的Enginegenerate。
2025-11-30 12:27:58
663
原创 【RL】python协程
被称为“异步数据源”,因为它产生数据的方式是异步的、非阻塞的。数据不是一次性准备好的: 它不是先计算出然后一次性返回。数据是随着时间的推移、逐个生成的。生成过程包含等待: 在生成每个数据点之间,都有一个await等待期。这个等待期是非阻塞的,允许asyncio系统并发地处理其他任务。消费方式必须是异步的: 要想从这个数据源获取数据,你必须使用异步的语法,即async for或。你不能用普通的for循环直接迭代它。把它和同步数据源# 一个同步数据源"""一个同步生成器,每秒生成一个数字,共5个。
2025-11-30 12:01:54
742
原创 【RL】async_engine 远离
启动: 提交请求给sglang,得到一个异步生成器。并立即创建一个后台任务next_task去获取第一个 chunk。循环开始等待awaitnext_task,但最多等 10 秒。分支 A (成功): 10 秒内拿到了chunk。将chunk存起来。立即创建新的next_task去获取下一个chunk。分支 B (超时): 10 秒过去了,还没拿到chunk。is_timeout设为True。分支 C (结束)generator已经耗尽,__anext__抛出。break退出循环。
2025-11-30 11:22:05
658
原创 【RL】async原理
这个机制就像一个门卫。每个任务(请求)都是一个想要进入昂贵派对(LLM 计算)的客人。是一张黑名单。在让客人进门之前,门卫(这段代码)会先核对一下黑名单。如果客人在黑名单上 (),门卫会直接把他请走 (continue选项就像是门卫的额外职责:如果被拒绝的客人需要一个正式的“拒绝通知”好回去交差,门卫就会给他开一张 (如果不需要,就直接让他离开。这种**“早退”(Early Exit)或“快速失败”(Fail Fast)的模式是构建高效、响应迅速的分布式系统中的一个经典且非常重要的实践。
2025-11-30 11:20:46
556
原创 【RL】ROLLsync def consumer
异常触发时,表示所有请求的生成都已完成。中每个位置都包含了对应请求的完整响应。构建 GenerateReqInput。时,支持并行生成多个结果。下面通过一个具体例子说明。保护任务不被意外取消。设置 10 秒超时,
2025-11-30 10:58:14
865
小功率调幅发射机仿真报告
2018-03-18
MATLAB频谱图
2018-03-18
小功率调幅发射机
2018-03-18
电子线路课程设计
2018-03-18
电容振荡器
2018-03-18
模拟通信中信号角度的调制与解调
2018-04-20
labview实例
2018-03-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅