1、空单元格
分析数据时,空单元格可能会给带来错误的结果。
2、删除行
处理空单元格的一种方法是删除包含空单元格的行。
这通常是可以的,因为数据集可能非常大,并且删除几行不会对结果产生很大的影响。
例如:
返回没有空单元格的新数据框:import pandas as pd
df = pd.read_csv('data.csv')
new_df = df.dropna()
print(new_df.to_string())
在我们的清理示例中,我们将使用一个名为“dirtydata.csv”的CSV文件。
注意:默认情况下,dropna()方法返回一个new数据框,并且不会更改原始DataFrame。
如果你想改变原始的DataFrame,使用inplace = True参数:
例如:
删除所有带有NULL值的行:import pandas as pd
df = pd.read_csv('data.csv')
df.dropna(inplace = True)
print(df.to_string())
Note:
dropna(inplace = True)不会返回一个新的DataFrame,但是它会从原始DataFramee中删除包含NULL值的所有行。
3、替换空值
处理空单元格的另一种方法是改为插入新值。
这样,不必仅由于某些空单元格而删除整个行。
fillna()方法允许我们用一个值替换空单元格:<