极乐寺住持-CSDN博客

原创强化学习的探索与利用：多臂老虎机问题与其算法的模拟仿真

强化学习的探索与利用均衡：多臂老虎机与其算法，有代码

2022-07-12 10:34:29 1260

原创基于价值的强化学习方法-时序差分法(TD)

Q-Learning与SARSA——理论推导与代码实现

2022-04-18 19:15:51 1775 2

原创 model-free 强化学习方法基础——蒙特卡罗策略优化

最基本的model-free方法——MC法策略评估详解

2022-04-16 11:35:23 1455

原创 model-free 方法：动态规划法DP(dynamic programing)

基于模型的强化学习算法：动态规划法（有例子）

2022-04-12 15:42:26 1487

原创强化学习可以用来调参？人工智能炼丹师《Using Deep Q-Learning to Control Optimization Hyperparameters》论文解读

文献链接：[1602.04062v1] Using Deep Q-Learning to Control Optimization Hyperparameters (arxiv.org)在探索强化学习应用的无目的搜索中，偶然发现一篇让我让很是感兴趣的文章：利用强化学习去进行超参数的调节。超参数指的是人工设定的，在训练过程中不会改变的一系列参数类似学习率，步长，卷积层，卷积核等等，且一般为了达到比较良好的效果，炼丹师们会不断地改变这些超参数，然后训练，试图进一步获得更好的训练结果。但是在一般情况...

2022-04-10 19:35:20 4239

HEU_Yutianqi的博客

原创强化学习的探索与利用：多臂老虎机问题与其算法的模拟仿真

原创基于价值的强化学习方法-时序差分法(TD)

原创 model-free 强化学习方法基础——蒙特卡罗策略优化

原创 model-free 方法：动态规划法DP(dynamic programing)

原创强化学习算法大纲（给自己列的大纲）

原创强化学习可以用来调参？人工智能炼丹师《Using Deep Q-Learning to Control Optimization Hyperparameters》论文解读

原创价值函数与贝尔曼方程

原创马尔可夫决策过程——木筏到快艇的升级之路

原创强化学习的简单认知

空空如也

空空如也