- 博客(26)
- 问答 (8)
- 收藏
- 关注
原创 TRPO和PPO算法详解
TRPO 算法在很多场景上的应用都很成功,但是我们也发现它的计算过程非常复杂,每一步更新的运算量非常大。PPO 基于 TRPO 的思想,但是其算法实现更加简单。并且大量的实验结果表明,与 TRPO 相比,PPO 能学习得一样好(甚至更快),这使得 PPO 成为非常流行的强化学习算法。PPO的一种形式是PPO-惩罚,使用拉格朗日乘数法直接将KL散度的限制直接放在了目标函数中,这就变成了无约束的优化问题,在迭代的过程中不断更新 KL 散度前的系数。
2025-04-06 16:14:14
897
原创 Policy gradient相关算法
虽然带基线的 REINFORCE 有一个策略网络和一个价值网络,但是这种方法不是actor-critic。价值网络没有起到“评委”的作用,只是作为基线而已,目的在于降低方差,加速收敛。真正帮助策略网络(演员)改进参数 θ(演员的演技)的不是价值网络,而是实际观测到的回报。DPG是一个off-policy算法,收集transition的行为策略和优化的目标策略是不同的。因此,添加baseline不会改变策略梯度,但是会减小方差,使得训练更加稳定。A2C和REINFORCE with baseline的区别。
2025-04-01 11:58:35
686
原创 DQN及其改进
stst1ytrtγ⋅maxaQst1a;w)xiQixiEmeaniQi)]meanixi)EmaxiQi)]≥maxixi)Qsta;w)Qst1a;w)a∗aargmaxQst1a;w)ytrtγ⋅Qst1a∗;w−)Qst1a∗。
2025-04-01 11:57:23
942
原创 RL基础以及AlphaGo、AlphaGo Zero原理
Qsa是agent在状态s下执行某一个动作(如向上走),所获得的及时奖励和未来折扣的累计奖励Vs是agent在状态s下执行每个动作(上、下、左、右),所获得的加权奖励值(期望奖励值),主要用来评估状态s的好坏,与动作无关Qsa和VsVπstEAQπstAa∑πa∣st⋅QπstaVπstEAQπstA∫πa∣st⋅Qπsta。
2025-03-28 19:21:24
960
原创 AI抑郁症检测
可穿戴设备在抑郁症检测中的应用表现出了良好的前景,尤其是在身体活动、睡眠模式和心率数据的收集和分析方面。然而,目前设备和算法仍需进一步优化,尤其是在设备种类多样化和与其他数据的融合方面。设备类型与使用情况可穿戴设备在抑郁症检测中广泛应用,常用设备包括Actiwatch系列和Fitbit系列,主要佩戴于手腕。这些设备通过监测身体活动、睡眠模式、心率和其他生理数据,为抑郁症检测提供丰富的数据来源。数据类型与作用身体活动数据(如步数、卡路里消耗):用于评估运动量与心理健康的关联。睡眠模式。
2025-01-15 19:38:03
1392
原创 生成式奖励模型(generative reward model)的几种方法
*生成性奖励模型:**不同与常见的基于BT的奖励模型,生成性的奖励模型(generative reward model)使用大模型本身的生成推理能力,进行偏好的分类计算。
2024-11-22 12:07:46
1141
原创 Mini-Omni论文精读Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
具体实现是对text token和audio token同时解码,并加入delay机制,使得text token先生成,来指导音频的生成。音频编解码器一般使用残差向量量化RVQ对音频特征进行离散化,经过多层量化之后,audio token由Q个向量组成,Q是codebook的数量。解码时可以顺序进行,但是对于实时音频生成任务来说,并行解码是一种更合适的方案。将audio token和text token合并成新的词表,生成时同时预测audio token和text token,Loss如下。
2024-10-01 00:22:50
946
原创 Moshi论文精度 Moshi: a speech-text foundation model for real-time dialogue
为了将text token与audio token进行对齐,使用whisper对语音进行识别,获取识别文字的时间窗口,从而对应到audio token,未被text token覆盖到的时间窗口使用PAD token来表示,并在下一个text token前添加EPAD,表示padding的截止符。两个音频流的audio token直接进行拼接,如果使用了Q个codebook,那么量化向量的数量为2Q,此时RQ-Transformer的每个step输入时2Q个量化向量。
2024-09-29 14:47:44
1568
2
原创 VITA: Towards Open-Source Interactive Omni Multimodal LLM论文笔记
声音打断交互:同时部署两个模型,生成模型用来回复用户的query,而监测模型同时监测环境声音,当监测到有效的query时,生成模型终止回复,并将上下文提供给监测模型,监测模型开始对新query进行回复,而生成模型对环境生成进行监测,二者完成了身份的互换。训练过程:为了对不同模态类型的输入进行更好的交互,在训练时,针对不同的输入模态类型,在答案的开始位置添加相应的特殊token,语音query添加<1>,噪声语音query添加<2>,纯文本query<3>数据源与对齐阶段的数据相同,做了一些改变。
2024-09-27 16:15:58
451
1
原创 大模型奖励黑客Reward Hacking(也叫Reward Overoptimization)问题的相关论文介绍
在基于人类反馈的强化学习优化过程中,当以reward model的评分作为奖励进行优化时,如果reward model不能完全代表人类的偏好,就可能出现奖励黑客,即reward hacking。本文主要研究了基于大模型的生成器和评估器的自我迭代的框架中,由于基于大模型的评估器并不能代表人类真实的判断意图,造成存在一定的reward hacking问题。提出了一种改进的RM算法,ODIN,即使用length header和content header,推理时,只使用content header的奖励值。
2024-09-09 16:26:40
2419
原创 近期一些MoE-LoRA的相关Paper
提出了一种MoE-LoRA架构模型PESC,该方法使用了串行结构的adapter-MoE,并在损失中添加了expert balance loss。
2024-09-01 22:35:19
1305
原创 RLHF中reward model的奖励值有哪些计算方法?Loss如何计算?
获取输入序列的最后一个token的hidden state,然后接一个线性层映射到一个标量值,然后使用MES等计算loss。要求训练数据的标签是一个标量值(打分值)。基于传统的文本分类的方法,如使用cls的hidden state,或者对sequence hidden state进行pooling操作,接线形层进行分类。获取输入序列的最后一个token的hidden state,然后接一个线性层映射到2分类(accept和reject),然后使用交叉熵损失计算loss。Anthropic的实现方式。
2024-06-04 00:58:25
2158
原创 Lora及其变体
RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust AdaptationLearning to Route Among Specialized Experts for Zero-Shot GeneralizationAFLoRA: Adaptive Freezing of Low Rank Adaptation in ParameterEfficient Fine-Tuning of Large ModelsLoTR: Low Tensor
2024-03-24 16:19:47
2092
1
原创 强化学习基础
1. 价值迭代是贪心更新法2. 策略迭代中,用Bellman等式更新价值函数代价很大3. 对于空间较小的MDP,策略迭代通常很快收敛4. 对于空间较大的MDP,价值迭代更实用(效率更高)5. 如果没有状态转移循环,最好使用价值选代R%28s%29%5Cpi%5Cpi。
2023-12-16 20:42:43
1580
1
原创 Actor-Critic(AC)、A2C、A3C
A3C将actor与环境的交互变成了异步的,每个worker可以分别与环境进行交互,并进行参数更新,更新完之后需要梯度更新到global network,并拉取最新的global network的参数替换掉worker的参数。我们将AC需要学习三个网络(Q函数,V函数,策略网络)优化成了只需要学习V函数和策略网络。是非常不稳定的,只有当采样丰富的样本时,才可以获得接近真实的G值,但是现实情况往往不能采样足够丰富的样本。Q值:S状态下有若干个动作,每个动作的Q值,就是从这个动作之后所获得的奖励总和的期望值。
2023-12-16 00:08:03
158
1
原创 SARSA、Q-learning
Q-learning时value-based的方法,学习的不是policy,而是critic,critic并不直接决定action,而是评估一个actor有多么的好。通过把state输入到值网络中,从而得到累计奖励。值网络的学习可以使用Monte-Carlo方法,需要进行完整个game,然后计算某个state对应的累计奖励,然后最小化该累计奖励和值网络输出值,从而学习值网络模型。值网络的学习也可以使用Temporal-difference(TD)方法。输入到值网络得到的累计激励,与。
2023-12-15 23:03:41
499
原创 LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比
https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。
2023-12-08 14:12:48
7990
原创 table understanding表格理解paper:表格信息抽取,表格问答,表格检索等
https://github.com/wenhuchen/OTT-QAhttps://github.com/microsoft/TUTA_table_understandinghttps://github.com/google-research/tapashttps://github.com/microsoft/Table-Pretraininghttps://modelscope.cn/models/damo/nlp_convai_text2sql_pretrain_cn/summaryhttps://g
2023-09-23 15:19:32
580
1
原创 基于大模型来做NLP任务
InstructUIE: Multi-task Instruction Tuning for Unified Information ExtractionAligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation ExtractorsRevisiting Relation Extraction in the era of Large Language ModelsLarge Language Model Is
2023-07-26 22:47:53
1169
1
原创 基于ChatGPT来做NLP任务的相关论文
How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?Small Models are Valuable Plug-ins for Large Language ModelsGPT-NER: Named Entity Recognition via Large Language ModelsZero-Shot Information Extraction via Chatting with Cha
2023-07-21 23:19:09
482
1
原创 Chatglm系列:GLM GLM130B chatglmv1 chatglmv2
2. 预训练方式1:自编码使用blank infilling的方式训练,即提取spans,并替换成mask,使用自回归的方式预测mask,spans的双向可见性取决于spans的随机排列顺序。其通过mask spans来自回归的预测被mask的span,非span区域是互见的,span之间的可见性取决于span的随机排列顺序。5. 训练集的95%使用blank filling任务训练,分别占30%、70%,训练集的另外5%来自于各个NLP任务指令数据集,通过转化成prompt的方式构建。
2023-07-16 12:58:51
802
1
原创 Few-shot NER信息抽取综述
1. 使用预训练语言模型的单词预测范式来预测实体对应的label word,非实体部分预测是其本身2. label word是通过class标签映射过去的word集合,比如PER:John,Steve,POS:china,japan等3. label word的构建:通过知识库和远程监督的方法构造伪数据集,使用预训练模型获取topn的实体,然后基于统计和LM获取的实体构建label word4. 不太适合中文数据集5. label word样例:6. 模型架构图。
2023-07-16 12:47:53
725
1
空空如也
客户端去操作hdfs时,出现异常
2018-10-17
问题不大,代码有点长,求大神解答:tensorflow生成tfrecord文件运行不下去
2018-09-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人