强化学习
IF奇迹有颜色
这个家伙很懒,什么都没留下
展开
-
策略迭代:二维状态网格实现
#参考:https://www.cnblogs.com/devilmaycry812839668/p/10314049.html#encoding:UTF-8#!/usr/bin/env python3import random#状态states=[0,1,2,3,4,5]#动作actions=["a", "b"]# 奖励的折扣因子gama=0.9""" 状态值 v...原创 2019-06-17 22:03:24 · 309 阅读 · 0 评论 -
双轮机器人通过spinningup在mujoco中测试记录(更新)
1、 在我们这个游戏中,我们的状态由 4 个数字组成:底部小车的位置,小车的速度,杆的位置(以角度表示)和杆的角速度。这 4 个数字都是给定的数组(或向量)理解状态是一个数字数组意味着我们可以对它进行一些数学运算来决定我们根据状态采取什么行动。2、 点积两个数组(向量)之间的点积简单地将第一个数组的每个元素乘以第二个数组的对应元素,并将它们全部加在一起。假设我们想找到数组 A 和 B 的点...原创 2019-07-15 09:09:15 · 268 阅读 · 0 评论