- 博客(9)
- 收藏
- 关注
原创 03_PagedAttention实现原理
PagedAttention是通过高效利用现存, 避免显存浪费, 达到提升LLm模型推理吞吐量的效果以A100为例, 推理一个13B的模型, KV Cache占现存比例在30%以上, 随着batch size增大, 传统的大模型推理服务显存占用迅速上升, vllm则是有一个相对平缓很多的显存上升曲线, 同样显存占用下的每秒钟tokens吞吐量是传统方式的大概3倍。
2025-08-20 15:08:01
414
原创 07_TRPO
TRPO算法通过引入信任区域来解决深度策略网络训练中的步长问题,确保策略更新时的安全性。其核心思想是在新旧策略的目标函数差异上建立约束,利用优势函数和占用度量进行优化。公式推导表明,目标函数之差可以表示为新旧策略在状态-动作空间中的优势期望,并通过重要性采样实现策略改进。该方法避免了传统策略梯度算法因过大更新步长导致的策略性能骤降问题,为深度强化学习提供了更稳定的训练机制。
2025-06-26 15:43:13
199
原创 06_Actor-Critic算法
gEt0∑Tψt∇θlogπθat∣stψtatψtQπθstat)θVs)Asa)AπθstatQπθstat−Vπθst≈rtγVπθst1−VπθstrtLω21rγVωst1−Vωst2r。
2025-06-25 15:57:29
1062
原创 05_策略梯度算法
JθEs0Vπθs0)]πθθJθ)Es0]s0∇θJθ∝s∈S∑νπθsa∈A∑Qπθsa∇θπθa∣ss∈S∑νπθsa∈A∑πθa∣sQπθsaπθa∣s∇θπθa∣sEπθQπθsa∇θlogπθ。
2025-06-24 18:59:16
1371
原创 04_DQN算法
QsaQsaαrγa′∈AmaxQs′a′−Qsarγmaxa′∈AQs′a′)Qsa)Qsa){(siairisi′)}ω∗ωargmin2N1i1∑NQωsiai−riγa′maxQωsi′a′2ωω∗L2N1∑iNyi−yi。
2025-06-20 19:23:20
1577
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1