Pandas.DataFrame.std() 标准差详解含代码含测试数据集随Pandas版本持续更新

数象限

已于 2024-01-31 15:19:42 修改

阅读量3.4k

点赞数 43

分类专栏： Pandas API参考文章标签： pandas

于 2024-01-22 13:57:28 首次发布

本文链接：https://blog.csdn.net/mingqinsky/article/details/135721794

版权

Pandas API参考专栏收录该内容

76 篇文章

订阅专栏

关于Pandas版本： 本文基于 pandas2.2.0 编写。

关于本文内容更新： 随着pandas的stable版本更迭，本文持续更新，不断完善补充。

传送门： Pandas API参考目录

传送门： Pandas 版本更新及新特性

传送门： Pandas 由浅入深系列教程

本节目录

Pandas.DataFrame.std()

Pandas.DataFrame.std()

Pandas.DataFrame.std 方法用于返回行或列的标准差，默认 ddof=1 返回 样本标准差 。

计算公式：

样本标准差公式 Pandas.DataFrame.std 默认的标准差计算方法是根号内以 n-1 为底，即样本标准差：

$\sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}$

$s$ 表示样本标准差， $n$ 表示样本大小， $x_i$ 表示每个观测值， $\bar{x}$ 表示样本均值。
总体标准差公式

$\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}$

$\sigma$ 表示总体标准差， $\mu$ 表示总体均值， $N$ 表示总体大小。

语法：

DataFrame.std(axis=0, skipna=True, ddof=1, numeric_only=False, *kwargs)

返回值：

Series or DataFrame (if level specified)
- 返回 Series 或 DataFrame ，依传输的数据结构而定。

参数说明：

axis 指定计算方向（行或列）

axis : {0 or ‘index’, 1 or ‘columns’}, default 0

axis 参数，用于指定计算方向，即按行计算或按列计算标准差：
- 如果是 Series 此参数无效，将始终保持 axis=0，即计算整列的标准差。^例1
- 如果是 DataFrame 默认为 axis=0 即计算每一列的标准差。并有以下参值可选:
  - 0 or ‘index’: 计算每列的标准差。 ^例2
  - 1 or ‘columns’： 计算每行的标准差。^例3
⚠️ 注意 :

axis=None 已被标记为弃用，在未来的版本，将使用新的方法实现。

skipna 忽略缺失值

skipna : bool, default False >

skipna 参数，用于指定求标准差的时候是否忽略缺失值：
- False： 不忽略，缺失值在求标准差的时候，会被解析为浮点数 float 0.0。
- True: 忽略缺失值。
⚠️ 注意 :

如果整行或整列，都是缺失值，那么标准差结果是依然是NaN。 ^例4

numeric_only 排除非纯数值的行或列

numeric_only : bool, default False

numeric_only 参数，用于控制是否排除非纯数值的行或列：
- False： 不排除。
- True: 只对纯数值型的行或列计算标准差。^例5

ddof 自由度修正

ddof : int, default 1 ^例6

ddof ： Delta 自由度，用于计算的除数是 N-ddof ，其中 N 代表元素的数量。默认 ddof=1。
- ddof=1 计算 样本标准差（默认）。
- ddof=0 计算 总体标准差。
  - 当 ddof=0 DataFrame.std 的行为和 numpy.std 一致。
⚠️ddof 应该如何取值？：
- 如果你准备计算标准差的数据，是某个总体数据集的一部分样本，你想通过这一部分样本对总体数据集的标准差进行无偏估计，则可以选择使 ddof=1 或保持默认。进行 样本标准差 的计算。
- 如果你准备计算标准差的数据，就是你的总体数据集的全部，你可以选择使ddof=0 。进行 总体标准差 的计算。

示例：

测试文件下载：

本文所涉及的测试文件，如有需要，可在文章顶部的绑定资源处下载。

若发现文件无法下载，应该是资源包有内容更新，正在审核，请稍后再试。或站内私信作者索要。

测试文件下载位置.png

测试文件下载位置

例1：如果是 `Series` 始终保持 `axis=0`，即计算整列的标准差。

import numpy as np
import pandas as pd

s = pd.Series([24.0, np.nan, 21.0, 33, 26], name="age")
s.std()

5.0990195135927845

例2、求 `DataFrame` 每列的样本标准差

import numpy as np
import pandas as pd

df = pd.DataFrame({'person_id': [0, 1, 2, 3],
                   'age': [21, 25, 62, 43],
                   'height': [1.61, 1.87, 1.49, 2.01]}
                  ).set_index('person_id')


df.std()

age       18.786076
height     0.237417
dtype: float64

例3、求 `DataFrame` 每行的样本标准差

import numpy as np
import pandas as pd

df = pd.DataFrame({'person_id': [0, 1, 2, 3],
                   'age': [21, 25, 62, 43],
                   'height': [1.61, 1.87, 1.49, 2.01]}
                  ).set_index('person_id')


df.std(axis=1)

person_id
0    13.710800
1    16.355380
2    42.787031
3    28.984307
dtype: float64

例4：如果整行或整列，都是缺失值，那么标准差计算结果也是缺失值。

import pandas as pd
import numpy as np

df = pd.DataFrame({"A": [0.5, 0.2], "B": ["a", 0.7], "C": [np.NaN, np.NaN]})

df.std(axis=0, numeric_only=True)
# ... A    0.212132
# ... C         NaN
# ... dtype: float64

C列由于都是缺失值，计算结果也是缺失值。

例5：`numeric_only=True` 只对数值类型的列求样本标准差。

import pandas as pd

df = pd.DataFrame({"A": [0.5, 1, 2], "B": ["a", "a", "a"], "C": [True, True, True]})

df.std(axis=0, numeric_only=True)

# ... A    0.763763
# ... C    0.000000
# ... dtype: float64

B列由于字符串，所以没有被计算标准差

例6：控制自由度修正值，当 `ddof=0` 将计算总体标准差。

观察计算每列样本标准差的结果

df = pd.DataFrame({'person_id': [0, 1, 2, 3],
                   'age': [21, 25, 62, 43],
                   'height': [1.61, 1.87, 1.49, 2.01]}
                  ).set_index('person_id')
df.std()

age       18.786076
height     0.237417
dtype: float64

观察计算每列总体标准差的结果

df.std(ddof=0)

age       16.269219
height     0.205609
dtype: float64

Pandas.DataFrame.std() 标准差 详解 含代码 含测试数据集 随Pandas版本持续更新

本节目录

Pandas.DataFrame.std()

计算公式：

语法：

返回值：

参数说明：

axis 指定计算方向（行或列）

skipna 忽略缺失值

numeric_only 排除非纯数值的行或列

ddof 自由度修正

相关方法：

示例：

例1：如果是 Series 始终保持 axis=0，即计算整列的标准差。

例2、求 DataFrame 每列的样本标准差

例3、求 DataFrame 每行的样本标准差