自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 c++语法复习(一)

本文总结刷题中遇到的语法。

2026-04-11 20:52:07 339

原创 强化学习+GRPO

每个状态可能做出多个动作,而且每个动作可能到达多个状态,图中的Π称之为策略或决策,P称为状态转移概率,我们将这马尔可夫过程称为。马尔可夫过程由五个基本的元素组成,S表示状态,A表示动作,P表示状态转移概率,γ表示折扣因子,R表示奖励(有时也称回报函数)。简单说:就是智能体在一个状态S下,选择了某个动作A,进入了另外一个状态S’,并获得奖励R的过程。如果(s,a)对应的下个状态s’是唯一的,那么回报函数也可以记为r(s,a)。S: 表示状态集(states),有s∈S,si表示第i步的状态。

2026-02-14 19:49:26 641

原创 hello-agents第一章

在人工智能领域,智能体被定义为任何能够通过传感器(Sensors)感知其所处环境(Environment),并自主地通过执行器(Actuators)采取行动(Action)以达成特定目标的实体。在人工智能领域,通常使用PEAS 模型来精确描述一个任务环境,即分析其性能度量(Performance)、环境(Environment)、执行器(Actuators)和传感器(Sensors)

2026-02-14 19:48:34 572

原创 GRPO参数详解

本文摘要介绍了GRPO(Group Relative Policy Optimization)训练中的关键参数配置。主要包括:1)actor_rollout.ref.rollout.n控制每个prompt的采样次数;2)data.train_batch_size设置每次rollout的prompt数量;3)ppo_mini_batch_size决定PPO更新时的小批次大小;4)micro_batch参数控制GPU处理的轨迹数量;5)use_kl_loss决定KL正则化方式;6)KL损失系数和类型的选择;7)

2025-12-18 19:20:13 1295

原创 上传大量文件到github repo

(这里注意 比如你要继续上传剩余的文件 仍然可以执行这个命令 之前在仓库下上传过的不会重复上传)),不要直接把 1000 张图散落在根目录,否则管理起来很麻烦。如果你以后关闭了代理软件,Git 可能会报错。选择 Public(公开)或 Private(私有)。(这一步可能会花几十秒,因为文件较多,请耐心等待)在你的电脑上,找到一个你想存放这个项目的文件夹。(此时,你的电脑上会出现一个和仓库同名的文件夹)将你的 1000 张图片复制粘贴到这个文件夹里。(这能避免很多初始化问题)。打开刚才生成的那个文件夹。

2025-12-18 08:27:18 383

原创 指令微调1

指令微调是相对“预训练”来讲的,预训练的时候是使用大量无标注的文本,让模型每次都预测下一个字符的方式来训练。而指令微调也可以叫“监督微调”,也就是对于输入文本有标准答案,用标准答案来训练模型。一般预训练完毕后就要进行指令微调,经过指令微调后,大语言模型能够展现出较强的指令遵循能力,可以通过零样本学习的方式解决多种下游任务。微调的过程:1.数据准备:收集和准备特定任务的数据集。2.模型选择:选择一个预训练模型作为基础模型。3.迁移学习:在新数据集上继续训练模型,同时保留预训练模型的知识。

2025-12-17 15:31:08 423

原创 llama factory微调qwen2.5vl过程遇到Could not create share link

给gradio下的frpc_linux_amd64_v0.3加权限。参考视频:b站博主:小林绿子的怀中猫。注意路径要对应自己的路径。

2025-12-17 15:30:05 235

原创 RL和RLHF框架超详细解析

传统的机器学习范式,智能体通过与环境交互,根据奖励信号学习最优策略。RL的一个特殊应用,专门用于训练大语言模型,奖励信号来源于人类的偏好反馈。: RLHF = RL + Reward Model(学习人类偏好)另外,传统RL的状态:是具体的环境状态(- Atari游戏: 84x84像素图像 - 机器人: 关节角度向量 )动作是明确的控制指令 (-游戏: {上, 下, 左, 右} - 机器人: 每个关节的力矩值)

2025-12-05 21:55:47 700

原创 __getitem__ 方法和collate_fn函数(超详细)

方法是 PyTorch Dataset 类中的一个重要方法,它允许你通过索引访问数据集中的每一个元素。默认情况下,DataLoader 假定所有样本都是相同大小,并直接堆叠它们。然而,在许多实际场景中,样本的大小并不一致(例如,不同长度的句子或不同分辨率的图像),这时就需要自定义。如果你的数据集包含不同长度的序列,你需要在此处添加逻辑来对这些序列进行填充。是 DataLoader 类中的一个参数,它负责。函数首先分离了数据和标签,然后将标签转换为。返回相应的数据和标签。函数,则会在返回前对数据进行转换。

2025-11-15 10:26:12 318

原创 手把手github多模态大模型项目复现流程(小白可用)

大家复现项目时可以把readme 丢给GPT 先了解整体需要做的流程框架,在复现项目之前先仔细阅读readme、分析项目框架,以下是我复现项目的相关流程以及遇到的问题。

2025-11-09 10:37:16 1421 2

原创 大模型相关概念

持续更新ing...

2025-11-09 10:17:30 1046

原创 LLM-Transformer架构

【通过对 Query 和 Key 进行运算我们可以得到一个权重,这个权重其实反映了从 Query 出发,对文本每一个 token 应该分布的注意力相对大小。通过把权重和 Value 进行运算,得到的最后结果就是从 Query 出发计算整个文本注意力得到的结果】torch.matmul(A, B) # 形状: (batch, seq_len_A, seq_len_B)# 获取键向量的维度,键向量的维度和值向量的维度相同。给不同 Key 所赋予的不同权重,就是我们所说的注意力分数。

2025-07-12 18:59:47 835

原创 LLM-NLP基础概念

LLM+NLP

2025-07-10 14:11:52 536

原创 py知识点(蓝桥杯备赛ing)

元组是不可变的(Immutable),即创建后不能修改,即不能添加、删除或修改元素。列表是 Python 中最常用的数据结构之一,用于存储一组有序的元素。切片是 Python 中用于从序列(如列表、字符串、元组等)中提取子序列的操作。解包是 Python 中一种将序列(如列表、元组)或字典中的元素拆分并赋值给多个变量的操作。a, b, c = [1, 2, 3] #将列表 [1, 2, 3]中的元素分别赋值给变量 a、b、c。print(my_list[1:4]) # 输出:[2, 3, 4]

2025-03-16 22:01:34 981

原创 Python itertools模块使用详解

输出: ('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'C'), ('C', 'A'), ('C', 'B')# 输出: ('A', 'A'), ('A', 'B'), ('A', 'C'), ('B', 'B'), ('B', 'C'), ('C', 'C')# 输出: ('A', '1'), ('A', '2'), ('B', '1'), ('B', '2')# 输出: ('A', 'B'), ('A', 'C'), ('B', 'C')

2025-02-27 21:03:11 635

原创 Python实现wordcount+使用python进行debug

Python实现wordcount+使用python进行debug

2024-10-07 17:46:25 1523

原创 SSH连接和密钥配置+Linux基础命令

SSH连接和密钥配置+Linux基础命令

2024-10-01 11:49:36 2620

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除