Reinforcement Learning
蓝羽飞鸟
GO
展开
-
强化学习之迷宫问题(MC, Sarsa, Q-learning实现)
通过简易迷宫问题,理解Monte-Carlo算法和Sarsa算法3×33\times33×3的迷宫如下可以通过每一步都随机地走,直到走到S8为止这里主要写通过强化学习,找到最佳路线MC算法:首先定义一个policy,它是一个矩阵,行代表S1~S8列代表action的4个方向,这里定义方向为↑、→、↓、←的顺序policy定义为πθ(s,a)\pi_{\theta}(s, a)πθ...原创 2019-09-03 00:34:14 · 4317 阅读 · 0 评论 -
强化学习之CartPole游戏(Q-learning)
CartPole是OpenAI gym中的一个游戏测试https://gym.openai.com/envs/CartPole-v1/目的是通过强化学习让Agent控制cart,使pole尽量长时间不倒这里用Q-learning实现,理解Q-learningQ矩阵定义:CartPole状态是保存在observation中的,有4个变量,cart位置和速度,pole的角度和速度,它们都是...原创 2019-09-15 15:26:27 · 9739 阅读 · 5 评论 -
PyTorch 识别 MNIST 手写数字
深度学习识别手写数字,用Pytorch实现,对象是有标号的手写数字数据集MNIST(Modified National Institute of Standards and Technology)一般download MNIST数据集用以下command:mnist = fetch_mldata('MNIST original')但是因为在本机上总是出现timeout的错误,更改为以下co...原创 2019-09-29 00:07:47 · 676 阅读 · 0 评论