![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
(1)强化学习
个人学习笔记
RosebudTT
这个作者很懒,什么都没留下…
展开
-
强化学习之Monte Carol
这篇文章就用MC方法来玩21点扑克牌游戏。规则简介在这里智能体(Agent)扮演玩家(Player),对方是庄家(Dealer)。 点数(Score):2-10的点数为牌面数字;J,Q,K是10点;A有两种算法,1或者11,算11总点数不超过21时则必须算成11(usable),否则算作1。 庄家需要亮(Show)一张牌,玩家根据自己手中的牌和庄家亮的牌决定是要牌(hits)还是停牌(sticks)。 庄家要牌和停牌的规则是固定的,即点数小于17必须要牌,否则停牌。 爆牌(goes bust转载 2020-05-19 13:21:25 · 498 阅读 · 0 评论 -
强化学习之policy gradient
qo转载 2020-05-19 16:35:38 · 505 阅读 · 0 评论 -
强化学习之基本核心概念与分类
1.基本词汇 States and Observations 状态S可以完整地描述外部环境,观察O有可能会遗漏。如果O能够完整地观察S,就是环境就是完全可观察,否则就是部分可观察的 Action Spaces 行动空间是所有可以的行动S组成的空间,可以是离散的,也可以是连续的。 Policies 策略可以是确定性的,一般表示为μ,也可以是随机的,一般表示为π。 Rewards 强化学习中Agent的目标是累积获得最多奖励,一般来说奖励是随着运动轨迹衰减的。从直观上原创 2020-05-18 21:27:16 · 989 阅读 · 0 评论 -
强化学习之Actor-Critic
Actor-Critic方法合并了Value-based (比如 Q learning) 和 Policy-based (比如 Policy Gradients) 两类强化学习算法转载 2020-05-19 17:41:28 · 909 阅读 · 0 评论 -
强化学习之DQN(附莫烦代码)
1.简介想象用Q-learning 电子游戏的每一帧来学习电子游戏,每个图片就可以是一种状态,游戏中的角色又可以有多种动作(上下左右,下蹲跳跃等等)。如果用Q表来记录每一个动作所对应的状态,那么这张Q表将大到无法想象。DQN不用Q表记录Q值,而是用神经网络来预测Q值,并通过不断更新神经网络从而学习到最优的行动路径。深度 Q 网络(DQN)是将 Q learning 和卷积神经网络(CNN)结合在一起Off-policy是Q-Learning的特点,DQN中也延用了这一特点。而不同的是,Q-Lea转载 2020-05-14 18:04:44 · 3596 阅读 · 1 评论 -
强化学习之Open AI Gym
在原创 2020-05-14 16:35:57 · 677 阅读 · 0 评论 -
强化学习之Q_learing和sarsa
一.原理展示对比算法可知,Q_Learning在到达状态s`后,首先查询Q表,得到使该状态s`条件下Q值最大的动作a`,根据Q(s`, a`)计算Q现实,随后,通过Q现实和Q估计更新Q表在下一步执行过程中,该动作a`未必被选择Sarsa在到达状态s`后,根据贪心策略,选择动作a`,根据Q(s`, a`)计算Q现实,随后,通过Q现实和Q估计更新Q表在下一步执行过程中,该动作a`需要被执行二.Q learing代码三.Sarsa代码import numpy as ..原创 2020-05-14 12:21:43 · 279 阅读 · 0 评论 -
强化学习之MAB
强化学习不仅提供了指导人工智能agent如何行动的能力,还允许它通过和环境的相互作用自主学习。同时结合神经网络强大的表达能力和目标驱动学习方式,深度强化学习成为了强大的人工智能基本方法。构建这些人工智能程序和构建可监督学习程序有所不同。可监督学习只是简单的学习模型对某个输入的反馈,而强化学习算法使agent能够通过观察(observation)、奖励(reward)和动作(action)来学习对于输入的正确的反馈。双臂老虎机问题(Two-Armed bandit)最简单的强化学习问题就是多臂老虎机问翻译 2020-05-13 17:35:10 · 1077 阅读 · 0 评论