dropna()
函数是 Pandas 中用于删除包含缺失值的行或列的函数。它可以用于数据清洗和数据预处理,去除缺失值,以便进一步分析或建模。
下面是 dropna()
函数的基本语法:
DataFrame.dropna(axis=0, how='any', subset=None, inplace=False, ...)
其中的参数含义如下:
axis
:指定删除缺失值的轴,0
表示删除包含缺失值的行,1
表示删除包含缺失值的列,默认为0
。how
:指定删除的方式,可选值为'any'
和'all'
,'any'
表示只要有一个缺失值就删除,'all'
表示全部为缺失值才删除,默认为'any'
。subset
:用于指定要考虑的列的子集,即在哪些列上查找缺失值,默认为None
,表示在所有列上查找缺失值。inplace
:指定是否在原地修改 DataFrame,即是否直接修改原始对象而不返回副本,默认为False
。
下面是一些示例说明 dropna()
函数的用法:
假设我们有以下 DataFrame:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [np.nan, 6, np.nan, 8],
'C': [10, 11, 12, np.nan]
}
df = pd.DataFrame(data)
删除包含任何缺失值的行:
# 删除包含任何缺失值的行
df_dropped = df.dropna()
print(df_dropped)
删除包含任何缺失值的列:
# 删除包含任何缺失值的列
df_dropped = df.dropna(axis=1)
print(df_dropped)
删除指定列中包含缺失值的行:
# 删除列 'A' 中包含缺失值的行
df_dropped = df.dropna(subset=['A'])
print(df_dropped)
删除全部为缺失值的行:
# 删除全部为缺失值的行
df_dropped = df.dropna(how='all')
print(df_dropped)
通过 dropna()
函数,你可以轻松地删除 DataFrame 中的缺失值,以保持数据的一致性和准确性。