最近使用sklearn.preprocessing.StandardScaler对18000个样本进行标准化时进行标准化,报错了,提示有过多NaN值。
ValueError: Input contains NaN, infinity or a value too large for dtype('float64')
因为NaN值不会报错而且可以向下传递,会有很多问题。问题如下图。后来使用numpy实现以下标准化的公式,
x_t = (x-mean / std)
也有同样的问题发生。
一开始我以为是计算过程中累加和过大而导致NaN的发生,后来一想python的数字可以非常非常大,不可能出现累加和过大的可能。那么可能就是除0的问题了。最后,终于在前面的预处理中找到了一个可能除0的地方。
所以,在计算过程中出现大量NaN的情况,最好去最开始的地方去找针对除0的错误,检查分母是否为0。