强化学习
AI_Rancho
这个作者很懒,什么都没留下…
展开
-
EM算法
博客 知乎转载 2020-08-13 10:39:05 · 146 阅读 · 0 评论 -
隐马尔科夫模型
隐马尔科夫模型一(概念理解) 隐马尔可夫模型二(公式推导)转载 2020-08-12 23:45:44 · 146 阅读 · 0 评论 -
莫凡TensorFlow代码问题
tf2.0以上版本的,开始加两行 import tensorflow.compat.v1 as tf tf.disable_v2_behavior()原创 2020-07-27 21:14:33 · 1063 阅读 · 0 评论 -
anaconda安装cpu版本的TensorFlow
1.Anaconda prompt中创建 python3.6 版本的TensorFlow环境: conda create -n tensorflow python=3.6 2.activate tensorflow 3.pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow==2.0.0-rc # 使用清华园镜像 飞快! 4.测试:import tensorflow as tf ...原创 2020-07-27 20:24:05 · 1567 阅读 · 3 评论 -
DQN代码问题
1.env.render()函数用于渲染出当前的智能体以及环境的状态。 2.env.reset()为重新初始化函数 3.observation_, reward, done = env.step(action) 第一个为当前屏幕图像的像素值,经过彩色转灰度、缩放等变换最终送入我们上一篇文章中介绍的 CNN 中,得到下一步“行为”; 第二个值为奖励,每当游戏得分增加时,该返回值会有一个正反馈; 第三个值 gameover 为布尔值,如果游戏结束,返回 True; ...原创 2020-07-27 16:48:14 · 456 阅读 · 0 评论 -
Sarsa
Sarsa:在S2状态直接选择值。原创 2020-07-26 20:40:08 · 149 阅读 · 0 评论 -
强化学习方法汇总
model-free RL(依靠真实世界的反馈): 1.Q learning 2.Sarsa 3.Policy Gradients model-based RL(可以在想象中模拟): 1.Q learning 2.Sarsa 3.Policy Gradients policy-based RL(基于概率):不一定选择最高概率 1.Policy Gradients value-based RL:一定选择最大价值,连续的动作无法用基于价值 1.Q learning 2.Sarsa actor-critic:两种原创 2020-07-24 15:45:21 · 540 阅读 · 0 评论