人工智能
文章平均质量分 76
UNOboros
这个作者很懒,什么都没留下…
展开
-
从RL的专业角度解惑 instruct GPT的目标函数
这样,后人也可以更加透彻的理解这里面的核心思想,以及这篇文章所用的PPO和原始版本PPO之间的关联。原创 2024-07-08 13:18:40 · 701 阅读 · 0 评论 -
理解策略梯度方法:从REINFORCE到PPO
本文将探讨对数技巧的必要性、将轨迹积分转化为样本估计的方法,以及从REINFORCE到TRPO和PPO的演变过程。原创 2024-07-04 20:06:01 · 1108 阅读 · 0 评论 -
注意力机制的一般框架
假设我们把宇宙中所有的知识全部列在一张表中,表的每一行都是一个键值对(K,V),其中V就是知识,而K可以认为是对这个知识的摘要,用来检索这个知识。那么这个时候,当我们有一个问题Q的时候,最直接的做法就是去一个个的看K值,看看那个是和我这个问题最相关的。这就是一个问答的最简单的模型,原创 2024-02-20 15:45:09 · 448 阅读 · 0 评论 -
一种对拉格朗日乘子的直观理解
假如你面前有一座山,山上有一条复杂的小路,如果你爬山的时候只能顺着小路原创 2014-06-08 14:15:17 · 2324 阅读 · 0 评论