自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 03_PagedAttention实现原理

PagedAttention是通过高效利用现存, 避免显存浪费, 达到提升LLm模型推理吞吐量的效果以A100为例, 推理一个13B的模型, KV Cache占现存比例在30%以上, 随着batch size增大, 传统的大模型推理服务显存占用迅速上升, vllm则是有一个相对平缓很多的显存上升曲线, 同样显存占用下的每秒钟tokens吞吐量是传统方式的大概3倍。

2025-08-20 15:08:01 414

原创 00_images

2025-07-24 14:34:20 106

原创 07_TRPO

TRPO算法通过引入信任区域来解决深度策略网络训练中的步长问题,确保策略更新时的安全性。其核心思想是在新旧策略的目标函数差异上建立约束,利用优势函数和占用度量进行优化。公式推导表明,目标函数之差可以表示为新旧策略在状态-动作空间中的优势期望,并通过重要性采样实现策略改进。该方法避免了传统策略梯度算法因过大更新步长导致的策略性能骤降问题,为深度强化学习提供了更稳定的训练机制。

2025-06-26 15:43:13 199

原创 06_Actor-Critic算法

gEt0∑T​ψt​∇θ​logπθ​at​∣st​​​ψt​at​ψt​Qπθ​st​at​)θVs)Asa)Aπθ​st​at​​Qπθ​st​at​−Vπθ​st​≈rt​γVπθ​st1​−Vπθ​st​​​rt​Lω21​rγVω​st1​−Vω​st​2r。

2025-06-25 15:57:29 1062

原创 05_策略梯度算法

JθEs0​​Vπθ​s0​)]πθ​θJθ)Es0​​]s0​∇θ​Jθ​∝s∈S∑​νπθ​sa∈A∑​Qπθ​sa∇θ​πθ​a∣ss∈S∑​νπθ​sa∈A∑​πθ​a∣sQπθ​saπθ​a∣s∇θ​πθ​a∣s​Eπθ​​Qπθ​sa∇θ​logπθ​。

2025-06-24 18:59:16 1371

原创 04_DQN算法

QsaQsaαrγa′∈Amax​Qs′a′−Qsa​​rγmaxa′∈A​Qs′a′)Qsa)Qsa){(si​ai​ri​si′​)}ω∗ωargmin​2N1​i1∑N​Qω​si​ai​−ri​γa′max​Qω​si′​a′2​​ωω∗L2N1​∑iN​yi​−yi。

2025-06-20 19:23:20 1577

原创 03_时序差分算法

2025-06-20 11:17:17 315

原创 02_动态规划算法

a′sa′。

2025-06-20 11:16:44 444

原创 01_马尔可夫决策过程

⟨SP⟩Si​。

2025-06-20 11:14:05 310 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除