强化学习
文章平均质量分 53
浅梦s
浙大计算机硕士,现于阿里巴巴担任算法工程师。公众号:浅梦的学习笔记,Github:https://github.com/shenweichen
展开
-
《强化学习》 基本概念和交叉熵方法
基本概念监督学习与强化学习 监督学习 强化学习 通过学习近似参考答案 通过试验和错误来学习最优策略 需要正确答案 代理的动作需要反馈 模型不影响输入数据 代理可以影响自己的观察bandit赌博机...原创 2018-05-29 23:44:48 · 2470 阅读 · 0 评论 -
《强化学习》 DP动态规划
奖赏设计累计奖赏和折扣累计奖赏 数学上看,折扣奖赏机制可以将累计回报转化为递推的形式: Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1\begin{aligned}G_t &= R_t +\gamma(R_{t+1}+\gamma R_{t+2}+...)\\&am原创 2018-05-30 12:48:33 · 1345 阅读 · 0 评论 -
《强化学习》 模型无关方法
模型无关学习 Monte-Carlo & Temporal Difference; Q-learning 探索与利用on-policy 和 off-policySARSAExpected value SARSA对比原创 2018-06-04 16:57:59 · 1405 阅读 · 0 评论 -
《强化学习》近似值函数方法
表格方法的局限 Deep Q-Network原创 2018-06-04 21:09:57 · 1489 阅读 · 0 评论 -
《强化学习》基于策略的方法
基于策略RL和基于值函数RL直觉 不同种类的策略 策略梯度形式 LOG技巧REINFORCE with baseline Actor-CriticAdvantage Actor Critic policy based 和 Value based...原创 2018-06-20 16:36:17 · 3821 阅读 · 0 评论 -
《强化学习》探索方法
衡量探索 基于不确定性的探索基于MCTS的规划原创 2018-06-21 14:39:07 · 1644 阅读 · 0 评论 -
CMU 10703 |Lecture 2 Markov Decision Processes
本笔记转载自微信公众号 机器人学家 ,根据其上发布的CMU翻译讲义进行整理。大纲智能体(Agent)、动作(Action)、奖励(Reward)马尔科夫决策过程(MDP)价值函数(Value function)最优价值函数(Optimal value function)马尔可夫决策过程MDPMDP的特征能够检测成功允许多次尝试并失败MDP详解定义MDP是一个五元组<S,A,P,R,原创 2017-02-08 14:54:14 · 1981 阅读 · 0 评论 -
CMU 10703 |Lecture 3 Planning in Markov decision processes
本文转载自微信公众号 机器人学家,根据其上发布的CMU翻译讲义进行整理。大纲Exact solution methods: Policy iteration Policy Evaluation (a.k.a. DP) Policy Improvement Value iteration (a.k.a. DP) Linear programming Approximate solut原创 2017-02-08 20:15:36 · 880 阅读 · 1 评论