xueyongfu-CSDN博客

原创 TRPO和PPO算法详解

TRPO 算法在很多场景上的应用都很成功，但是我们也发现它的计算过程非常复杂，每一步更新的运算量非常大。PPO 基于 TRPO 的思想，但是其算法实现更加简单。并且大量的实验结果表明，与 TRPO 相比，PPO 能学习得一样好（甚至更快），这使得 PPO 成为非常流行的强化学习算法。PPO的一种形式是PPO-惩罚，使用拉格朗日乘数法直接将KL散度的限制直接放在了目标函数中，这就变成了无约束的优化问题，在迭代的过程中不断更新 KL 散度前的系数。

2025-04-06 16:14:14 897

原创强化学习中一些重要公式的证明

状态价值函数。

2025-04-01 12:00:23 824

原创 Policy gradient相关算法

虽然带基线的 REINFORCE 有一个策略网络和一个价值网络，但是这种方法不是actor-critic。价值网络没有起到“评委”的作用，只是作为基线而已，目的在于降低方差，加速收敛。真正帮助策略网络（演员）改进参数 θ（演员的演技）的不是价值网络，而是实际观测到的回报。DPG是一个off-policy算法，收集transition的行为策略和优化的目标策略是不同的。因此，添加baseline不会改变策略梯度，但是会减小方差，使得训练更加稳定。A2C和REINFORCE with baseline的区别。

2025-04-01 11:58:35 686

原创 DQN及其改进

stst1ytrtγ⋅maxaQst1a;w)xiQixiEmeaniQi)]meanixi)EmaxiQi)]≥maxixi)Qsta;w)Qst1a;w)a∗aargmaxQst1a;w)ytrtγ⋅Qst1a∗;w−)Qst1a∗。

2025-04-01 11:57:23 942

原创 RL基础以及AlphaGo、AlphaGo Zero原理

Qsa是agent在状态s下执行某一个动作（如向上走），所获得的及时奖励和未来折扣的累计奖励Vs是agent在状态s下执行每个动作（上、下、左、右），所获得的加权奖励值（期望奖励值），主要用来评估状态s的好坏，与动作无关Qsa和VsVπstEAQπstAa∑πa∣st⋅QπstaVπstEAQπstA∫πa∣st⋅Qπsta。

2025-03-28 19:21:24 960

原创最近流式语音大模型汇总以及benchmark

本文主要介绍了近期流式语音大模型。

2025-03-18 19:12:14 999

原创 AI抑郁症检测

可穿戴设备在抑郁症检测中的应用表现出了良好的前景，尤其是在身体活动、睡眠模式和心率数据的收集和分析方面。然而，目前设备和算法仍需进一步优化，尤其是在设备种类多样化和与其他数据的融合方面。设备类型与使用情况可穿戴设备在抑郁症检测中广泛应用，常用设备包括Actiwatch系列和Fitbit系列，主要佩戴于手腕。这些设备通过监测身体活动、睡眠模式、心率和其他生理数据，为抑郁症检测提供丰富的数据来源。数据类型与作用身体活动数据（如步数、卡路里消耗）：用于评估运动量与心理健康的关联。睡眠模式。

2025-01-15 19:38:03 1392

原创生成式奖励模型（generative reward model）的几种方法

*生成性奖励模型：**不同与常见的基于BT的奖励模型，生成性的奖励模型（generative reward model）使用大模型本身的生成推理能力，进行偏好的分类计算。

2024-11-22 12:07:46 1141

原创 Mini-Omni论文精读Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

具体实现是对text token和audio token同时解码，并加入delay机制，使得text token先生成，来指导音频的生成。音频编解码器一般使用残差向量量化RVQ对音频特征进行离散化，经过多层量化之后，audio token由Q个向量组成，Q是codebook的数量。解码时可以顺序进行，但是对于实时音频生成任务来说，并行解码是一种更合适的方案。将audio token和text token合并成新的词表，生成时同时预测audio token和text token，Loss如下。

2024-10-01 00:22:50 946

原创 Moshi论文精度 Moshi: a speech-text foundation model for real-time dialogue

为了将text token与audio token进行对齐，使用whisper对语音进行识别，获取识别文字的时间窗口，从而对应到audio token，未被text token覆盖到的时间窗口使用PAD token来表示，并在下一个text token前添加EPAD，表示padding的截止符。两个音频流的audio token直接进行拼接，如果使用了Q个codebook，那么量化向量的数量为2Q，此时RQ-Transformer的每个step输入时2Q个量化向量。

2024-09-29 14:47:44 1568 2

原创 VITA: Towards Open-Source Interactive Omni Multimodal LLM论文笔记

声音打断交互：同时部署两个模型，生成模型用来回复用户的query，而监测模型同时监测环境声音，当监测到有效的query时，生成模型终止回复，并将上下文提供给监测模型，监测模型开始对新query进行回复，而生成模型对环境生成进行监测，二者完成了身份的互换。训练过程：为了对不同模态类型的输入进行更好的交互，在训练时，针对不同的输入模态类型，在答案的开始位置添加相应的特殊token，语音query添加<1>，噪声语音query添加<2>，纯文本query<3>数据源与对齐阶段的数据相同，做了一些改变。

2024-09-27 16:15:58 451 1

原创大模型奖励黑客Reward Hacking（也叫Reward Overoptimization）问题的相关论文介绍

在基于人类反馈的强化学习优化过程中，当以reward model的评分作为奖励进行优化时，如果reward model不能完全代表人类的偏好，就可能出现奖励黑客，即reward hacking。本文主要研究了基于大模型的生成器和评估器的自我迭代的框架中，由于基于大模型的评估器并不能代表人类真实的判断意图，造成存在一定的reward hacking问题。提出了一种改进的RM算法，ODIN，即使用length header和content header，推理时，只使用content header的奖励值。

2024-09-09 16:26:40 2419

原创近期一些MoE-LoRA的相关Paper

提出了一种MoE-LoRA架构模型PESC，该方法使用了串行结构的adapter-MoE，并在损失中添加了expert balance loss。

2024-09-01 22:35:19 1305

原创类gpt-4o模型，文本-语音-视频-图像的全模态模型方案

点击查看我的更多AI学习笔记github

2024-07-23 18:00:22 631

原创 RLHF中reward model的奖励值有哪些计算方法？Loss如何计算？

获取输入序列的最后一个token的hidden state，然后接一个线性层映射到一个标量值，然后使用MES等计算loss。要求训练数据的标签是一个标量值（打分值）。基于传统的文本分类的方法，如使用cls的hidden state，或者对sequence hidden state进行pooling操作，接线形层进行分类。获取输入序列的最后一个token的hidden state，然后接一个线性层映射到2分类（accept和reject），然后使用交叉熵损失计算loss。Anthropic的实现方式。

2024-06-04 00:58:25 2158

原创 Lora及其变体

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust AdaptationLearning to Route Among Specialized Experts for Zero-Shot GeneralizationAFLoRA: Adaptive Freezing of Low Rank Adaptation in ParameterEfficient Fine-Tuning of Large ModelsLoTR: Low Tensor

2024-03-24 16:19:47 2092 1

原创强化学习基础

1. 价值迭代是贪心更新法2. 策略迭代中，用Bellman等式更新价值函数代价很大3. 对于空间较小的MDP，策略迭代通常很快收敛4. 对于空间较大的MDP，价值迭代更实用(效率更高)5. 如果没有状态转移循环，最好使用价值选代R%28s%29%5Cpi%5Cpi。

2023-12-16 20:42:43 1580 1

原创 Actor-Critic(AC)、A2C、A3C

A3C将actor与环境的交互变成了异步的，每个worker可以分别与环境进行交互，并进行参数更新，更新完之后需要梯度更新到global network，并拉取最新的global network的参数替换掉worker的参数。我们将AC需要学习三个网络（Q函数，V函数，策略网络）优化成了只需要学习V函数和策略网络。是非常不稳定的，只有当采样丰富的样本时，才可以获得接近真实的G值，但是现实情况往往不能采样足够丰富的样本。Q值：S状态下有若干个动作，每个动作的Q值，就是从这个动作之后所获得的奖励总和的期望值。

2023-12-16 00:08:03 158 1

原创 SARSA、Q-learning

Q-learning时value-based的方法，学习的不是policy，而是critic，critic并不直接决定action，而是评估一个actor有多么的好。通过把state输入到值网络中，从而得到累计奖励。值网络的学习可以使用Monte-Carlo方法，需要进行完整个game，然后计算某个state对应的累计奖励，然后最小化该累计奖励和值网络输出值，从而学习值网络模型。值网络的学习也可以使用Temporal-difference（TD）方法。输入到值网络得到的累计激励，与。

2023-12-15 23:03:41 499

原创 LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。

2023-12-08 14:12:48 7990

原创文档理解document understanding：文档信息抽取，多模态文档理解预训练，富文档QA问答

ACL。

2023-09-23 15:37:58 731 1

原创 table understanding表格理解paper：表格信息抽取，表格问答，表格检索等

https://github.com/wenhuchen/OTT-QAhttps://github.com/microsoft/TUTA_table_understandinghttps://github.com/google-research/tapashttps://github.com/microsoft/Table-Pretraininghttps://modelscope.cn/models/damo/nlp_convai_text2sql_pretrain_cn/summaryhttps://g

2023-09-23 15:19:32 580 1

原创基于大模型来做NLP任务

InstructUIE: Multi-task Instruction Tuning for Unified Information ExtractionAligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation ExtractorsRevisiting Relation Extraction in the era of Large Language ModelsLarge Language Model Is

2023-07-26 22:47:53 1169 1

原创基于ChatGPT来做NLP任务的相关论文

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?Small Models are Valuable Plug-ins for Large Language ModelsGPT-NER: Named Entity Recognition via Large Language ModelsZero-Shot Information Extraction via Chatting with Cha

2023-07-21 23:19:09 482 1

原创 Chatglm系列：GLM GLM130B chatglmv1 chatglmv2

2. 预训练方式1：自编码使用blank infilling的方式训练，即提取spans，并替换成mask，使用自回归的方式预测mask，spans的双向可见性取决于spans的随机排列顺序。其通过mask spans来自回归的预测被mask的span，非span区域是互见的，span之间的可见性取决于span的随机排列顺序。5. 训练集的95%使用blank filling任务训练，分别占30%、70%，训练集的另外5%来自于各个NLP任务指令数据集，通过转化成prompt的方式构建。

2023-07-16 12:58:51 802 1

原创 Few-shot NER信息抽取综述

1. 使用预训练语言模型的单词预测范式来预测实体对应的label word，非实体部分预测是其本身2. label word是通过class标签映射过去的word集合，比如PER：John，Steve，POS：china，japan等3. label word的构建：通过知识库和远程监督的方法构造伪数据集，使用预训练模型获取topn的实体，然后基于统计和LM获取的实体构建label word4. 不太适合中文数据集5. label word样例：6. 模型架构图。

2023-07-16 12:47:53 725 1

fjfdg666的博客