NPG、兼容函数逼近定理、TRPO、PPO、DPO
2025-04-26 17:10:26
580
强化学习基础理论与高级DQN算法及策略梯度基础
2025-04-25 13:43:52
479
数值分析与离散数学
2025-04-12 14:11:40
1186
图论与信息论
2025-04-12 13:31:16
1258
线代与优化
2025-04-11 14:01:24
2339
微积分与概率论
2025-04-11 10:32:51
1213
从数学理论到编程实践:并行采样+顺序修订的联合优化
2025-04-10 12:42:03
1015
从数学理论到编程实践:带你学习树形思维探索(ToT)
2025-04-10 12:26:17
1139
从数学理论到编程实践:CoT的多路径生成与自洽性验证
2025-04-09 08:37:06
1378
在开始前请确保您有一定的LLM基础和强化学习基础😊如果您没有RL基础我推荐David Sliver的讲座(前三集即可)
2025-04-09 02:30:00
1854
从数学理论到编程实践:数据统计方法中的投票策略
2025-04-08 12:49:32
890
从数学理论到编程实践:使用Triton实现FlashAttention的三个版本
2025-04-08 10:14:24
3144
从数学理论到编程实践:分析三种量化方法
2025-04-07 17:59:29
1044
从数学理论到编程实践:Pytorch实现多头注意力到Triton优化
2025-04-07 00:02:24
1395
从数学理论到代码实现学习BPE算法
2025-04-06 11:46:37
1337
三种搜索算法从数学视角到代码实现,并附有我的github仓库
2025-04-06 00:42:01
1379