DMP(马尔可夫决策过程)

DMP

一 累积回报

智能体的目标是最大化长期受到的累积回报(cumulative reward)。如何定义累计回报呢?如果在时间t时刻之后,智能体接受到的回报序列表示成
在这里插入图片描述

. 那么,我们寻求的是最大化期望回报(expected return),这里用Gt表示特定的回报序列函数。回报的表示方法之一是将回报累加,即:

在这里插入图片描述

考虑到实际场景,在计算累积回报时都会引入一个折扣因子(用γ表示)。智能体尝试选择一个动作使得未来的折扣回报累积最大化。特别的,智能体会在时刻t选择动作At能最大化期望折扣回报(expected discounted return)。即:

在这里插入图片描述

二 值函数

  • 状态值函数
    里用π表示策略,即状态到动作的映射。用π(a|s)表示当状态为s时,采取动作a的概率(条件概率分布)。在策略π下状态s的值函数(状态值函数)用
    在这里插入图片描述表示

在这里插入图片描述

  • 状态动作值函数

在策略π下,状态为s时动作a对应值函数 我们称之为状态动作值函数(action-value function),用在这里插入图片描述表示

在这里插入图片描述

三 最优策略

  • 贝尔曼方程

在这里插入图片描述

如果策略π是最优的,当且仅当对于任意的状态s, 均存在策略π对应的值函数大于等于其它策略的值函数。
用公式表示为:在这里插入图片描述

最优策略可以通过最大化动作状态值函数贝尔曼最优方程来求解。即:
在这里插入图片描述

四 RL过程

强化学习是解决交互过程中、以整体收益最大化(最大化累积回报)为导向的序列学习问题。 这里的目标即为最大化累积回报,而累积回报受过程中的策略π影响,策略π是随机变量,所以累积回报也是一个随机变量。

强化学习希望通过一个确定的函数能描述最大化的累积回报。

因此就用了累积回报的期望来描述价值函数。

根据策略最优定理:价值函数最优所对应的策略即为最优策略,即最优策略的选择可以根据价值函数的最大值来确定。

那么,强化学习求解问题最后就转化为如果获得最优的价值函数(状态值函数or状态动作值函数).

Oracle 19c的导出导入dmp全过程可以分为以下几个步骤: 1. 创建目录 首先需要在数据库中创建一个目录,用于存放导出导入文件。可以使用以下命令: ``` CREATE DIRECTORY dmpdir AS '/oracle/dmp'; ``` 其中dmpdir为目录名称,'/oracle/dmp'为目录路径。 2. 导出数据 使用expdp命令来导出数据,命令语法如下: ``` expdp username/password@database_name directory=dmpdir dumpfile=dumpfile.dmp logfile=log_file.log ``` 其中,username为数据库用户名,password为密码,database_name为数据库实例名,directory为上一步中创建的目录名称,dumpfile为导出文件名称,logfile为日志文件名称。 3. 导入数据 使用impdp命令来导入数据,命令语法如下: ``` impdp username/password@database_name directory=dmpdir dumpfile=dumpfile.dmp logfile=log_file.log ``` 其中,username为数据库用户名,password为密码,database_name为数据库实例名,directory为上一步中创建的目录名称,dumpfile为导入文件名称,logfile为日志文件名称。 在导入数据时,需要注意一些参数的设置,例如: - REMAP_SCHEMA:用于将导入的数据重命名为新的模式名称。 - REMAP_TABLESPACE:用于将导入的数据重命名为新的表空间名称。 - TABLE_EXISTS_ACTION:用于控制导入时遇到已存在的表或索引时的操作,有三个选项:SKIP、APPEND和REPLACE。 可以根据具体的需求进行设置。 以上就是Oracle 19c导出导入dmp全过程的主要步骤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值