oracle+关闭tfa,oracle开启/关闭archlog

sql> archive log list;

Database log mode No Archive Mode

Automatic archival Disabled

Archive destination USE_DB_RECOVERY_FILE_DEST

Oldest online log sequence 228

Current log sequence 230

sql> shutdown immediate;

Database closed.

Database dismounted.

ORACLE instance shut down

启动数据库到mount状态

sql> startup mount;

ORACLE instance started.

Total System Global Area 3423965184 bytes

Fixed Size 2180544 bytes

Variable Size 2013268544 bytes

Database Buffers 1392508928 bytes

Redo Buffers 16007168 bytes

Database mounted.

5.启动归档模式

sql> alter database archivelog;

Database altered.

sql> archive log list;

Database log mode Archive Mode

Automatic archival Enabled

Archive destination USE_DB_RECOVERY_FILE_DEST

Oldest online log sequence 228

Next log sequence to archive 230

Current log sequence

6.启动数据库

sql> alter database open;

Database altered

.关闭归档模式

sql> shutdown immediate;

Database closed.

Database dismounted.

ORACLE instance shut down.

sql> startup mount;

ORACLE instance started.

Total System Global Area 3423965184 bytes

Fixed Size 2180544 bytes

Variable Size 2013268544 bytes

Database Buffers 1392508928 bytes

Redo Buffers 16007168 bytes

Database mounted.

sql> alter database noarchivelog;

Database altered.

sql> archive log list;

Database log mode No Archive Mode

Automatic archival Disabled

Archive destination USE_DB_RECOVERY_FILE_DEST

Oldest online log sequence 228

Current log sequence 230

总结

如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这行代码通常出现在策略梯度算法中,其中`pi`和`oldpi`分别表示当前策略和旧策略,`tfa`是执行的动作。`prob`表示计算策略在给定动作下的概率,`EPS`是一个很小的常量,用于防止除零错误。 具体来说,`ratio`计算了当前策略相对于旧策略的概率比值。在策略梯度算法中,我们希望最大化期望回报,因此需要根据这个比值来更新策略参数。如果当前策略的概率大于旧策略的概率,则比值大于1,说明当前策略比旧策略更优;反之,如果比值小于1,则说明当前策略不如旧策略。在更新策略参数时,我们可以根据这个比值来调整更新的方向和大小。 例如,以下代码使用策略梯度算法更新神经网络的策略参数: ``` import tensorflow as tf # 定义神经网络和策略 model = tf.keras.models.Sequential([...]) pi = model(tf.constant(observation)) # 计算当前策略和旧策略的概率 tfa = tf.constant(action) pi = tfp.distributions.Categorical(probs=pi) oldpi = tfp.distributions.Categorical(probs=oldpi) ratio = pi.prob(tfa) / (oldpi.prob(tfa) + EPS) # 计算策略梯度和更新参数 pg_loss = -advantage * ratio grads = tape.gradient(pg_loss, model.trainable_variables) optimizer.apply_gradients(zip(grads, model.trainable_variables)) ``` 在上面的例子中,`pi`表示当前神经网络的输出,即当前策略的概率。`tfa`是执行的动作,在这个例子中,我们使用了一种离散动作空间下的策略梯度算法(即使用分类分布来表示策略),因此需要将`tfa`转换为一个整数,表示选择了哪个动作。`pi.prob(tfa)`和`oldpi.prob(tfa)`分别计算了当前策略和旧策略在给定动作下的概率,从而计算了概率比值`ratio`。最后,根据策略梯度公式,计算了策略梯度和更新参数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值