强化学习系列之实验基础记录(1)

画图

目前在做强化学习在水下机器人上的应用,具体如何应用在这里还不到发表的时候,请见谅,目前还不能标识,已经看了很多强化学习的理论内容。准备开始做实验了。所以也就借这个机会在这里记录一下自己每天做的事情,如果能和大家一起讨论更好。

多的不说,我先从我实验要用到的画图说起,总结一些有用的。首先是matplotlib了。至于pycharm和anaconda如何安装,等以后有时间我在这里在放吧。因为这些东西太基础上。当然可能我传的也是基础的。嘿嘿!

图形样式

这是一个比较有用的测试程序。里边有很多可选的样式。随便去填写就好。
这里用到了matplotlib库,如果没有安装。在pycharm的terminal控制台下。首先激活自己的conda源。当然我是用的pycharm+anaconda,即 activate tensorflow 然后输入 conda install matplotlib即可。当然这里我碰到过一个问题,安装不了。那是因为我默认的链接资源是清华的镜像。这个镜像站19年关闭了,那么就要求我们要删除一下,再来执行上面的第二步。

import numpy as np
import matplotlib.pyplot as plt

#获取所有的自带样式
print(plt.style.available)

plt.style.use(’_classic_test’)

x,y = np.random.normal(size=(2,100))

plt.plot(x,y,“o”)

plt.show()

之后保存就出现了这种。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习是指一类从(与环境)交互中不断学习的问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值)。而强化学习的关键问题是在于每一个动作并不能直接得到监督信息,需要通过整个模型的最终监督信息(奖励)得到,并且有一定的延时性。所以我们要解决如何通过直接得到的监督信息,来获得每个状态中比较恰当的动作的问题。 在强化学习中,有两个可以进行交互的对象:智能体和环境。智能体可以感知外界环境的状态,并进行学习和决策。智能体的决策功能是指根据外界环境的状态来做出不同的动作,而学习功能是指根据外界环境的奖励来调整策略。环境是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励 。其要素包括: 状态$s$:对环境的描述,可以是离散的或连续的,其状态空间为$S$ 动作$a$: 对智能体行为的描述,可以是离散的或连续的,其动作空间为$A$ 策略$\pi(a|s)$ :智能体根据环境状态$s$ 来决定下一步动作$a$ 的函数 状态转移概率$p(s'|s, a)$ :在智能体根据当前状态$s$做出一个动作$a$之后,环境在下一个时刻转变为状态$s'$的概率 即时奖励$r(s,a,s')$是一个标量函数,即智能体根据当前状态$s$做出动作$a$之后,环境会反馈给智能体一个奖励,这个奖励也经常和下一个时刻的状态$s'$有关
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值