自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 强化学习的探索与利用:多臂老虎机问题与其算法的模拟仿真

强化学习的探索与利用均衡:多臂老虎机与其算法,有代码

2022-07-12 10:34:29 873 1

原创 基于价值的强化学习方法-时序差分法(TD)

Q-Learning与SARSA——理论推导与代码实现

2022-04-18 19:15:51 1297 2

原创 model-free 强化学习方法基础——蒙特卡罗策略优化

最基本的model-free方法——MC法策略评估详解

2022-04-16 11:35:23 1136

原创 model-free 方法:动态规划法DP(dynamic programing)

基于模型的强化学习算法:动态规划法(有例子)

2022-04-12 15:42:26 1259

原创 强化学习算法大纲 (给自己列的大纲)

强化学习算法大纲

2022-04-12 09:04:44 428

原创 强化学习可以用来调参?人工智能炼丹师《Using Deep Q-Learning to Control Optimization Hyperparameters》论文解读

文献链接:[1602.04062v1] Using Deep Q-Learning to Control Optimization Hyperparameters (arxiv.org)在探索强化学习应用的无目的搜索中,偶然发现一篇让我让很是感兴趣的文章:利用强化学习去进行超参数的调节。超参数指的是人工设定的,在训练过程中不会改变的一系列参数类似学习率,步长,卷积层,卷积核等等,且一般为了达到比较良好的效果,炼丹师们会不断地改变这些超参数,然后训练,试图进一步获得更好的训练结果。但是在一般情况...

2022-04-10 19:35:20 2656

原创 价值函数与贝尔曼方程

价值函数的引入,贝尔曼期望方程的推导

2022-04-09 19:08:28 2906 2

原创 马尔可夫决策过程——木筏到快艇的升级之路

小学生也能听懂的马尔科夫决策过程

2022-04-06 21:12:08 1516

原创 强化学习的简单认知

对强化学习的简单解释,小学生也能看懂

2022-04-06 11:45:25 1043

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除