Stable Baselines/用户向导/处理NaNs和infs

Stable Baselines官方文档中文版 Github CSDN
尝试翻译官方文档,水平有限,如有错误万望指正

在指定环境下训练模型的过程中,当遇到输入或者从RL模型中返回的NaNinf时,RL模型有完全崩溃的可能。

  • 原因和方式

    问题出现后,NaNsinfs不会崩溃,而是简单的通过训练传递,直到所有的浮点数收敛到NaNinf。这符合IEEE浮点运算标准(IEEE754),标准指出:

    可能出现的物种异常:

    • 无效的操作符( − 1 \sqrt{-1} 1 , inf$*$1, NaN mod 1, …)返回NaN
    • 除以0:
    • 如果运算对象非零(1/0, -2/0, …)返回 ± i n f \pm inf ±inf
    • 如果运算对象是零(0/0)返回NaN
    • 上溢(指数太高而无法表示)返回 ± i n f \pm inf ±inf
    • 下溢(指数太低而无法表示)返回 0 0 0
    • 不精确(以2为底时不能准确表示,例如1/5)返回四舍五入值(例如:assert (1/5) * 3 == 0.6000000000000001

    只有除以0会报错,其他方式只会静静传递。

    Python中,除以0会报如下错:ZeroDivisionError: float division by zero,其他会忽略。

    Numpy中默认警告:RuntimeWarning: invalid value encountered但不会停止代码。

    最差的情况,Tensorflow不会提示任何信息

    import tensorflow as tf
    import numpy as np
    
    print("tensorflow test:")
    
    a = tf.constant(1.0)
    b = tf.constant(
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值