Stable Baselines/用户向导/处理NaNs和infs

最新推荐文章于 2024-05-21 23:03:02 发布

PerpetualLearner

最新推荐文章于 2024-05-21 23:03:02 发布

阅读量1.2k

点赞数 2

分类专栏： # Stable Baselines官方文档中文版文章标签： Python stable baselines

Stable Baselines官方文档中文版 Github CSDN
尝试翻译官方文档，水平有限，如有错误万望指正

在指定环境下训练模型的过程中，当遇到输入或者从RL模型中返回的NaN或inf时，RL模型有完全崩溃的可能。

原因和方式

问题出现后，NaNs和infs不会崩溃，而是简单的通过训练传递，直到所有的浮点数收敛到NaN或inf。这符合IEEE浮点运算标准(IEEE754)，标准指出：
可能出现的物种异常：
- 无效的操作符（ $\sqrt{-1}$ , inf$*$1, NaN mod 1, …）返回NaN
- 除以0：
- 如果运算对象非零（1/0， -2/0, …）返回 $±inf \pm inf$
- 如果运算对象是零（0/0）返回NaN
- 上溢（指数太高而无法表示）返回 $±inf \pm inf$
- 下溢（指数太低而无法表示）返回 $0$
- 不精确（以2为底时不能准确表示，例如1/5）返回四舍五入值（例如：assert (1/5) * 3 == 0.6000000000000001）
只有除以0会报错，其他方式只会静静传递。

在Python中，除以0会报如下错：ZeroDivisionError: float division by zero，其他会忽略。

Numpy中默认警告：RuntimeWarning: invalid value encountered但不会停止代码。

最差的情况，Tensorflow不会提示任何信息
```
import tensorflow as tf
import numpy as np

print("tensorflow test:")

a = tf.constant(1.0)
b = tf.constant(
```

最低0.47元/天解锁文章

PerpetualLearner

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Stable Baselines/用户向导/处理NaNs和infs

Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档，水平有限，如有错误万望指正在指定环境下训练模型的过程中，当遇到输入或者从RL模型中返回的NaN或inf时，RL模型有完全崩溃的可能。原因和方式问题出现后，NaNs和infs不会崩溃，而是简单的通过训练传递，直到所有的浮点数收敛到NaN或inf。这符合IEEE浮点运算标准(IEEE754)，标准指...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。