五月底_-CSDN博客

每个状态可能做出多个动作，而且每个动作可能到达多个状态，图中的Π称之为策略或决策，P称为状态转移概率，我们将这马尔可夫过程称为。马尔可夫过程由五个基本的元素组成，S表示状态，A表示动作，P表示状态转移概率，γ表示折扣因子，R表示奖励（有时也称回报函数）。简单说：就是智能体在一个状态S下，选择了某个动作A，进入了另外一个状态S’，并获得奖励R的过程。如果(s,a)对应的下个状态s’是唯一的，那么回报函数也可以记为r(s,a)。S: 表示状态集(states)，有s∈S，si表示第i步的状态。

2026-02-14 19:49:26 641

原创 hello-agents第一章

在人工智能领域，智能体被定义为任何能够通过传感器（Sensors）感知其所处环境（Environment），并自主地通过执行器（Actuators）采取行动（Action）以达成特定目标的实体。在人工智能领域，通常使用PEAS 模型来精确描述一个任务环境，即分析其性能度量(Performance)、环境(Environment)、执行器(Actuators)和传感器(Sensors)

2026-02-14 19:48:34 572

原创 GRPO参数详解

本文摘要介绍了GRPO（Group Relative Policy Optimization）训练中的关键参数配置。主要包括：1）actor_rollout.ref.rollout.n控制每个prompt的采样次数；2）data.train_batch_size设置每次rollout的prompt数量；3）ppo_mini_batch_size决定PPO更新时的小批次大小；4）micro_batch参数控制GPU处理的轨迹数量；5）use_kl_loss决定KL正则化方式；6）KL损失系数和类型的选择；7）

2025-12-18 19:20:13 1295

原创上传大量文件到github repo

（这里注意比如你要继续上传剩余的文件仍然可以执行这个命令之前在仓库下上传过的不会重复上传）），不要直接把 1000 张图散落在根目录，否则管理起来很麻烦。如果你以后关闭了代理软件，Git 可能会报错。选择 Public（公开）或 Private（私有）。(这一步可能会花几十秒，因为文件较多，请耐心等待)在你的电脑上，找到一个你想存放这个项目的文件夹。(此时，你的电脑上会出现一个和仓库同名的文件夹)将你的 1000 张图片复制粘贴到这个文件夹里。（这能避免很多初始化问题）。打开刚才生成的那个文件夹。

2025-12-18 08:27:18 383

原创指令微调1

指令微调是相对“预训练”来讲的，预训练的时候是使用大量无标注的文本，让模型每次都预测下一个字符的方式来训练。而指令微调也可以叫“监督微调”，也就是对于输入文本有标准答案，用标准答案来训练模型。一般预训练完毕后就要进行指令微调，经过指令微调后，大语言模型能够展现出较强的指令遵循能力，可以通过零样本学习的方式解决多种下游任务。微调的过程：1.数据准备:收集和准备特定任务的数据集。2.模型选择:选择一个预训练模型作为基础模型。3.迁移学习:在新数据集上继续训练模型，同时保留预训练模型的知识。

2025-12-17 15:31:08 423

原创 llama factory微调qwen2.5vl过程遇到Could not create share link

给gradio下的frpc_linux_amd64_v0.3加权限。参考视频：b站博主：小林绿子的怀中猫。注意路径要对应自己的路径。

2025-12-17 15:30:05 235

原创 RL和RLHF框架超详细解析

传统的机器学习范式,智能体通过与环境交互,根据奖励信号学习最优策略。RL的一个特殊应用,专门用于训练大语言模型,奖励信号来源于人类的偏好反馈。: RLHF = RL + Reward Model(学习人类偏好)另外，传统RL的状态:是具体的环境状态（- Atari游戏: 84x84像素图像 - 机器人: 关节角度向量）动作是明确的控制指令（-游戏: {上, 下, 左, 右} - 机器人: 每个关节的力矩值）

2025-12-05 21:55:47 700

原创 getitem 方法和collate_fn函数（超详细）

方法是 PyTorch Dataset 类中的一个重要方法，它允许你通过索引访问数据集中的每一个元素。默认情况下，DataLoader 假定所有样本都是相同大小，并直接堆叠它们。然而，在许多实际场景中，样本的大小并不一致（例如，不同长度的句子或不同分辨率的图像），这时就需要自定义。如果你的数据集包含不同长度的序列，你需要在此处添加逻辑来对这些序列进行填充。是 DataLoader 类中的一个参数，它负责。函数首先分离了数据和标签，然后将标签转换为。返回相应的数据和标签。函数，则会在返回前对数据进行转换。

2025-11-15 10:26:12 318

原创手把手github多模态大模型项目复现流程（小白可用）

大家复现项目时可以把readme 丢给GPT 先了解整体需要做的流程框架，在复现项目之前先仔细阅读readme、分析项目框架，以下是我复现项目的相关流程以及遇到的问题。

2025-11-09 10:37:16 1421 2

原创大模型相关概念

持续更新ing...

2025-11-09 10:17:30 1046

原创 LLM-Transformer架构

【通过对 Query 和 Key 进行运算我们可以得到一个权重，这个权重其实反映了从 Query 出发，对文本每一个 token 应该分布的注意力相对大小。通过把权重和 Value 进行运算，得到的最后结果就是从 Query 出发计算整个文本注意力得到的结果】torch.matmul(A, B) # 形状: (batch, seq_len_A, seq_len_B)# 获取键向量的维度，键向量的维度和值向量的维度相同。给不同 Key 所赋予的不同权重，就是我们所说的注意力分数。

2025-07-12 18:59:47 835

原创 LLM-NLP基础概念

LLM+NLP

2025-07-10 14:11:52 536

原创 py知识点（蓝桥杯备赛ing）

元组是不可变的（Immutable），即创建后不能修改，即不能添加、删除或修改元素。列表是 Python 中最常用的数据结构之一，用于存储一组有序的元素。切片是 Python 中用于从序列（如列表、字符串、元组等）中提取子序列的操作。解包是 Python 中一种将序列（如列表、元组）或字典中的元素拆分并赋值给多个变量的操作。a, b, c = [1, 2, 3] #将列表 [1, 2, 3]中的元素分别赋值给变量 a、b、c。print(my_list[1:4]) # 输出：[2, 3, 4]

2025-03-16 22:01:34 981

原创 Python itertools模块使用详解

输出: ('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'C'), ('C', 'A'), ('C', 'B')# 输出: ('A', 'A'), ('A', 'B'), ('A', 'C'), ('B', 'B'), ('B', 'C'), ('C', 'C')# 输出: ('A', '1'), ('A', '2'), ('B', '1'), ('B', '2')# 输出: ('A', 'B'), ('A', 'C'), ('B', 'C')

2025-02-27 21:03:11 635

原创 Python实现wordcount+使用python进行debug

Python实现wordcount+使用python进行debug

2024-10-07 17:46:25 1523

原创 SSH连接和密钥配置+Linux基础命令

SSH连接和密钥配置+Linux基础命令

2024-10-01 11:49:36 2620

2301_80044974的博客

原创 c++语法复习（一）

原创强化学习+GRPO