接着前文继续
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df
缺失值处理
重新索引允许您更改/添加/删除指定轴上的索引。 这将返回数据的副本。
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1
注:增加了一个新列E,并且给E列第一行和第二行数据赋值为1,则没赋值的数据显示不存在。
删除存在缺失值的行:
df1.dropna(how='any')
填充缺失值:
df1.fillna(value=5)
注:这里使用5去填充,实际中,我们做数据分析常用0,中位数,平均数来填充。
查看空值数据:
pd.isnull(df1)
注:返回True的是空值数据
操作
统计
操作中一般不包含丢失的数据
执行