特征工程之标准化（标准差在pandas与numpy中计算，有所差别）

最新推荐文章于 2024-02-06 14:11:52 发布

待戈

最新推荐文章于 2024-02-06 14:11:52 发布

阅读量1.2k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_46311900/article/details/121550382

版权

python 数据分析机器学习

笔记专栏收录该内容

9 篇文章 3 订阅

订阅专栏

1. 问题引入：算法相同，数据格式不同，计算出的标准差不同？？？

import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
data = [[-1 ,2],[3,6]]
data_np = np.array(data)
data_df = pd.DataFrame(data)
def fun(x):
    return (x - x.mean(axis=0))/(x.std(axis=0))
scaler = StandardScaler()
print('库函数:\n',scaler.fit_transform(data)) 
print('\ndata_np:\n',fun(data_np))
print('\ndata_df:\n',fun(data_df))

2.问题发现：

库函数与使用numpy.array() 标准化计算的一致
使用pandas.DataFrame() 标准化计算的与前两者不一致

3.问题思考：

计算的中间过程单步执行了，没有问题，只有std()计算的不一致
找到原因了！！有偏的标准差与无偏的标准差所造成的

4.问题解决与验证

pandas内置有偏的标准差：
$\Large \sigma_{有偏} = \sqrt{\frac{ \sum^{n}_{i=1}{（x_{i} - \overline{x}）} ^{2}}{ \color{red}{n}} }$
numpy内置无偏的标准差：
$\Large \sigma_{无偏} = \sqrt{\frac{ \sum^{n}_{i=1}{（x_{i} - \overline{x}）} ^{2}}{ \color{red}{n -1}} }$
就是上述公式中的n n-1 作祟。
验证一下：
$\Large \sigma_{无偏}^{2} (n-1) = \sigma_{有偏} ^{2}{n}$

data_np_std = data_np.std(axis=0)[0]**2*2
data_df_std = data_df.std(axis=0)[0]**2*1
print(data_np_std)
print(data_df_std)
print(np.isclose(data_np_std,data_df_std))