强化学习
沉迷单车的追风少年
CSDN博客专家,CSDN商业化专家,官方内容合作伙伴,官方认证“人工智能领域优质创作者”,入选2023年中国开发者影响力年度榜单。
代表专栏《Diffusion Models与深度学习》、《手把手写深度学习》、《深度学习-计算机视觉》、《手把手写C++服务器》等。
展开
-
强化学习——Sarsa Lambda找宝藏
目录在Sarsa的基础上改进的sarsa lambda算法Sarsa存在的问题改进方法2:Sarsa Lambda参考开始每天被老师抓着写周报,以后想摸鱼都摸不了,心态baozha……在Sarsa的基础上改进的sarsa lambda算法算法流程和数学推导就不写了,弄清楚lambda的含义:如果 lambda = 0, Sarsa-lambda 就是 Sarsa, ...原创 2020-05-04 21:56:54 · 926 阅读 · 2 评论 -
强化学习的十大原则
原则一:评估方法驱动研究进展David Silver 指出,客观、量化的评估方法是强化学习进展的重要驱动力:评估指标的选择决定了研究进展的方向; 这可以说是强化学习项目中最重要的一个决定。 David Silver 介绍了两种评估方法: 排行榜驱动的研究 确保评估指标紧密对应最终目标; 避免主观评估(如人类评估)。 假设驱动的研究...转载 2020-04-28 23:06:38 · 586 阅读 · 0 评论 -
强化学习——Sarsa找宝藏
还是经典的二维找宝藏的游戏例子一些有趣的实验现象:由于Sarsa比Q-Learning更加安全、更加保守,这是因为Sarsa更新的时候是基于下一个Q,在更新state之前已经想好了state对应的action,而QLearning是基于maxQ的,总是想着要将更新的Q最大化,所以QLeanring更加贪婪! 但是这样的后果就是Sarsa会经常处于啥都不寻找的状态,如上面的动图所...原创 2020-04-28 23:02:06 · 1075 阅读 · 1 评论 -
强化学习——Q-Learning寻找宝藏
主要公式算法:T代表宝藏,o代表移动步数去寻找,通过强化学习训练,会寻找得越来越快,步数越来越少到第六步之后学会了直接直奔宝藏!import numpy as npimport pandas as pdimport timenp.random.seed(2)N_STATES = 6 # 一维世界的长度ACTIONS = ['left','right'] # 探索者可选择的动作EPSIONS = 0.9 # greedy police贪婪度ALPHA = 0.1 #原创 2020-04-22 21:12:14 · 2024 阅读 · 1 评论