Reinforcement Learning
文章平均质量分 95
VABIS_VHAS
流媒体优化、多模态融合、具身感知、集群式无人机
展开
-
马尔科夫决策过程 MDP
马尔可夫决策过程MDP马尔科夫性 Markov Property马尔科夫过程 Markov Property马尔科夫奖励过程 Markov Reward Process马尔科夫决策过程(Markov decision process, MDP)马尔科夫性 Markov Property无后效性:即系统的任一状态都包含了所有相关的历史信息,只要当前状态可知,所有的历史信息都不再需要,当前状态就可...原创 2019-08-06 15:37:35 · 1112 阅读 · 1 评论 -
Q-learning
Q-learning1. 强化学习的几个重要概念2. 例子3. Q表(Q table)4. Q表的更新5. DQN1. 强化学习的几个重要概念强化学习就是通过agent与envirenment的交互过程中,让agent学习到每步最佳决策的过程。stateactionreward2. 例子接下来采用博客中的例子进行说明上图红色方框就是我们的agent,任务是要在4x4的迷宫中找...原创 2019-08-05 15:08:47 · 425 阅读 · 0 评论 -
DQN(Deep Q-Learning)
文章目录DQNDQNq-learning存在一个问题,真实情况的state可能无穷多,这样q-table就会无限大,解决这个问题的办法是通过神经网络实现q-table。输入state,输出不同action的q-value。q-leaning的执行过程:输出state,根据Q-Table输出不同action的q-value,根据探索利用策略,获取当前状态下采取的动作a.DQN的执行过...原创 2019-08-07 15:59:23 · 1841 阅读 · 0 评论