自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_31293897的博客

原创 03_PagedAttention实现原理

PagedAttention是通过高效利用现存, 避免显存浪费, 达到提升LLm模型推理吞吐量的效果以A100为例, 推理一个13B的模型, KV Cache占现存比例在30%以上, 随着batch size增大, 传统的大模型推理服务显存占用迅速上升, vllm则是有一个相对平缓很多的显存上升曲线, 同样显存占用下的每秒钟tokens吞吐量是传统方式的大概3倍。

2025-08-20 15:08:01 414

原创 00_images

2025-07-24 14:34:20 106

原创 07_TRPO

TRPO算法通过引入信任区域来解决深度策略网络训练中的步长问题，确保策略更新时的安全性。其核心思想是在新旧策略的目标函数差异上建立约束，利用优势函数和占用度量进行优化。公式推导表明，目标函数之差可以表示为新旧策略在状态-动作空间中的优势期望，并通过重要性采样实现策略改进。该方法避免了传统策略梯度算法因过大更新步长导致的策略性能骤降问题，为深度强化学习提供了更稳定的训练机制。

2025-06-26 15:43:13 199

原创 06_Actor-Critic算法

gEt0∑Tψt∇θlogπθat∣stψtatψtQπθstat)θVs)Asa)AπθstatQπθstat−Vπθst≈rtγVπθst1−VπθstrtLω21rγVωst1−Vωst2r。

2025-06-25 15:57:29 1062

原创 05_策略梯度算法

JθEs0Vπθs0)]πθθJθ)Es0]s0∇θJθ∝s∈S∑νπθsa∈A∑Qπθsa∇θπθa∣ss∈S∑νπθsa∈A∑πθa∣sQπθsaπθa∣s∇θπθa∣sEπθQπθsa∇θlogπθ。

2025-06-24 18:59:16 1371

原创 04_DQN算法

QsaQsaαrγa′∈AmaxQs′a′−Qsarγmaxa′∈AQs′a′)Qsa)Qsa){(siairisi′)}ω∗ωargmin2N1i1∑NQωsiai−riγa′maxQωsi′a′2ωω∗L2N1∑iNyi−yi。

2025-06-20 19:23:20 1577

原创 03_时序差分算法

2025-06-20 11:17:17 315

原创 02_动态规划算法

a′sa′。

2025-06-20 11:16:44 444

原创 01_马尔可夫决策过程

⟨SP⟩Si。

2025-06-20 11:14:05 310 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄10年

9
原创

140
点赞

134
收藏

68
粉丝

关注

私信

热门文章

分类专栏

强化学习读书笔记 8篇
vllm大模型推理 1篇

最新评论

01_马尔可夫决策过程
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619759016。

提示

确定要删除当前文章？

取消删除