Reinforcement Learning
蓝羽飞鸟
GO
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习之迷宫问题(MC, Sarsa, Q-learning实现)
通过简易迷宫问题,理解Monte-Carlo算法和Sarsa算法 3×33\times33×3的迷宫如下 可以通过每一步都随机地走,直到走到S8为止 这里主要写通过强化学习,找到最佳路线 MC算法: 首先定义一个policy,它是一个矩阵,行代表S1~S8 列代表action的4个方向,这里定义方向为↑、→、↓、←的顺序 policy定义为πθ(s,a)\pi_{\theta}(s, a)πθ...原创 2019-09-03 00:34:14 · 4576 阅读 · 0 评论 -
强化学习之CartPole游戏(Q-learning)
CartPole是OpenAI gym中的一个游戏测试 https://gym.openai.com/envs/CartPole-v1/ 目的是通过强化学习让Agent控制cart,使pole尽量长时间不倒 这里用Q-learning实现,理解Q-learning Q矩阵定义: CartPole状态是保存在observation中的,有4个变量,cart位置和速度,pole的角度和速度,它们都是...原创 2019-09-15 15:26:27 · 10649 阅读 · 5 评论 -
PyTorch 识别 MNIST 手写数字
深度学习识别手写数字,用Pytorch实现,对象是有标号的手写数字数据集MNIST(Modified National Institute of Standards and Technology) 一般download MNIST数据集用以下command: mnist = fetch_mldata('MNIST original') 但是因为在本机上总是出现timeout的错误,更改为以下co...原创 2019-09-29 00:07:47 · 766 阅读 · 0 评论
分享