DeepSeek GRPO复现Debug

最新推荐文章于 2025-05-14 15:07:12 发布

amyyds

最新推荐文章于 2025-05-14 15:07:12 发布

阅读量513

点赞数 5

文章标签： python

本文链接：https://blog.csdn.net/amyyds/article/details/145817552

版权

报错：ValueError: You are attempting to perform batched generation with padding_side='right' this may lead to unexpected behaviour for Flash Attention version of Qwen2. Make sure to call `tokenizer.padding_side = 'left'` before tokenizing the input.

但是已经把grpo_trainer.py里所有的padding_side都=left了，还是报错，求解

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

amyyds

关注关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

解决报错：ValueError: Expected input batch_size (10) to match target batch_size (1).

hjtsml_future的博客

12-08

1万+

原做的是二分类，在训练的时候遇到了这个报错。 for i, (inputs, target) in enumerate(trainloader): # forward output = net(inputs) # compute loss loss = criterion(output, target) optimizer.zero_grad() # back

Huggingface报错

weixin_44902962的博客

03-07

3134

data_collator要对dataset中的所有列做填充，对于input_ids, attention_mask, labels 模型知道如何pad（因为他们是列表或者张量），但是对于text和label来说，他们是字符串，模型不知道该怎么填充。

5 条评论您还未登录，请先登录后发表或查看评论

LLM padding left or right

REfusing的博客

04-19

3366

感觉pading left or right，其实无所谓，主要就是为了方便。根据实际情况的具体需求，进行使用，用的正确，方便即可。

LLM的batch generate

sanjinpal的博客

03-17

453

在使用MLLM做推理的时候，为了加快推理速度，在batchsize=8的情况下进行推理，但生成的文本成乱码。发现是padding_side的问题，decoder-only的LLM因为是紧接着prompt的文本生成，padding_side应该取left。而encoder-decoder的模型是在encoder编码的向量输入下生成，因此padding_side应该取right。注意padding_side取left。

Pytorch遇到的问题及解决方案 - 更新ing

热门推荐

Tsingzao的博客

01-17

5万+

1、安装完成后，不能import torch，提示 ImportError: dlopen: cannot load any more object with static TLS 解决办法：有很多答案都说是将import torch放在import cv2之前，但我试了之后还是不能解决，最后是通过在jupyter notebook中可以直接import torch。我是通过mobarxterm...

【实践】LLM GRPO R1复现&代码笔记&逐行 debug 看懂 GRPO

m0_65708726的博客

02-26

1482

一文搞懂 GRPO 的算法实现的流程，代码实现细节

【LLM-RL】强化对齐之GRPO算法和微调实践

发现问题，并解决问题，批判性思维

01-19

3003

论文：DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels（https://arxiv.org/pdf/2402.03300）GRPO在DeepSeekV2中采用了，GRPO在训练过程中，不需要ValueModel，因此也能够减少RL训练过程中的资源消耗。

【策略模型结构】DeepSeek强化智能体中的GRPO架构与高维输入建模

努力分享一些人工智能相关的知识干货！

04-26

1752

本篇深入解析 DeepSeek 强化智能体系统中基于 GRPO（Generalized Reinforcement Policy Optimization）策略的智能体行为决策机制。从高维输入建模出发，我们将详细讲解智能体如何编码文本、表格、图像等多模态状态输入，如何将行为链中的 memory / context / prompt 映射为可学习向量，如何设计多头策略网络（Tool Select Head + Action Param Head），以及 GRPO 如何在多 Agent 任务中保持策略一致性与可

DeepSeek-R1复现方案梳理

yanqianglifei的专栏

02-12

1321

在 100 步时，解方程的成功率约为 25%，并且模型开始用文字进行 “推理”;近日，来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B，通过简单的强化学习（RL）微调，得到了全新的DeepScaleR-1.5B-Preview。由huggingface组建，目前刚上线2周，发布了最新进展open-r1/update-1，在MATH-500任务上接近deepseek的指标，可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。

又要弯道超车了，DeepSeek复现狂潮：开源的力量与大模型的未来

01-27

1487

DeepSeek 资源，Deepseek-r1复现科普与资源汇总，Deepseek-r1复现科普与资源汇总,目前复现主要针对于R1蒸馏模型（领域模型或者自有SFT模型）和R1-Zero的复现

02-19

DeepSeek项目是一个专注于深度学习领域资源和知识复现的平台。在当前版本中，该平台的核心内容集中在复现R1蒸馏模型上。所谓蒸馏模型，是指一种通过迁移学习和知识蒸馏技术，将大型复杂模型的知识迁移到更轻量级模型...

DeepSeek R1复现

hang on it more longer

02-06

1152

UC伯克利博士生潘家怡和另两位研究人员在CountDown游戏中复现了DeepSeek R1-Zero，项目名为TinyZero。：通过强化学习（RL），验证了3B的基础语言模型能够自我验证和搜索，且成本不到30美金。，从而能够获得更高的分数。此外，还发现额外的指令微调（SFT）并非是必要的。

deepseek r1复现

02-11

### 如何复现 DeepSeek-R1 项目为了成功复现 DeepSeek-R1 项目，需遵循一系列特定的操作流程来设置环境并运行必要的脚本。以下是详细的指南： #### 设置开发环境确保安装了 Python 和虚拟环境工具 `venv` 或者 ...

Python爬虫实战：研究进制流数据，实现逆向解密

最新发布

ylfhpy的博客

05-14

326

许多网站和应用通过二进制流数据传输敏感信息，如视频、金融交易数据等。逆向工程进制流数据不仅有助于合法的数据获取与分析，还能帮助企业发现自身安全漏洞，提升数据保护能力。本研究主要针对特定类型的视频加密系统，对于采用更复杂加密机制（如硬件加密、动态密钥交换）的系统，可能需要进一步优化方法。以二进制形式传输的数据序列，通常包含文件、图像、音频或加密信息。如 ECB、CBC、CFB 等，定义加密算法如何处理数据块。拦截并修改通信双方数据的攻击方式，本研究用于合法数据捕获。

maxtext开源程序是一个简单、高性能和可扩展的 Jax LLM！

struggle2025的博客

05-12

1337

MaxText 是一种高性能、高度可扩展的开源软件，以纯 Python/Jax LLM 编写，以 Google Cloud TPU 和 GPU 为目标，用于训练和推理。借助 Jax 和 XLA 编译器的强大功能，MaxText 实现了高 MFU 并从单个主机扩展到超大型集群，同时保持简单和“无优化”

【AI】“CUDA” 到底是什么？（AI 计算民主化，第二部分）

u011808788的博客

05-14

801

似乎每个人都在去年开始谈论CUDA ：它是深度学习的支柱，是新型硬件难以竞争的原因，也是NVIDIA 护城河和飙升市值的核心。DeepSeek的出现，让我们获得了一个惊人的发现：它的突破是通过“绕过” CUDA，直接进入 PTX 层实现的……但这究竟意味着什么？似乎每个人都想打破这种锁定，但在制定计划之前，我们必须了解我们面临的是什么。本文是 Modular “ AI 计算民主化”系列文章的第二部分。更多信息，请参阅：第一部分：DeepSeek 对 AI 的影响第二部分：“CUDA”到底是什么？

基于 Python 的后端开发学习路线

qq_49894233的博客

05-12

668

按照这条路线一步步学习，将会帮助你掌握后端开发的核心技能，成为一名合格的 Python 后端开发者。使用 Python 的 mysql-connector 或 psycopg2 连接数据库。使用 Python 的 unittest 或 pytest 进行单元测试。MongoDB 基础操作，使用 Python 的 pymongo 库。HTTP 协议（GET、POST、PUT、DELETE 等方法）条件语句（if-else）、循环（for、while）自己动手开发项目，例如博客、社交网站、在线商城等。

Java零基础学习Day12——集合ArrayList

m0_68932052的博客

05-13

495

集合只存引用数据类型；长度可变数组可存基本数据类型、引用数据类型；长度固定。