9. 表格中缺失值处理
import numpy as np
import pandas as pd
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102',periods=6))
df['F'] = s1
df
df1 = df.reindex(index=dates[0:4], columns=list(df.columns)+['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1
# pandas的reindex对象,是数据符合新的索引来构造一个新的对象
# 赋值列"E",里面第一行、第二行赋值为1
# 在pandas中,用np.nan来代表缺失值,这些值默认不会参与运算。
# reindex()允许你修改、增加、删除指定轴上的索引,并返回一个数据副本。
df1.dropna(how='any')
# 剔除所有包含缺失值的行数据。
df1.fillna(value=5)
# 填充缺失值,将df1的缺失值都填充为5
pd.isnull(df1)
# 获取值是否为nan的布尔标记