pandas基础02
导入pandas,numpy
import numpy as np import pandas as pd
目录
-
处理丢失数据
首先定义一个dataframe
dates = pd.date_range('20210515',periods = 6) df = pd.DataFrame(np.arange(24).reshape(6,4),index = dates,columns = ['A','B','C','D']) print(df)
输出结果df:
A B C D 2021-05-15 0 1 2 3 2021-05-16 4 5 6 7 2021-05-17 8 9 10 11 2021-05-18 12 13 14 15 2021-05-19 16 17 18 19 2021-05-20 20 21 22 23
手动修改dataframe里面的值,修改为nan(丢失数据)
#iloc进行位置的选择,0行1列的值改为nan df.iloc[0,1] = np.nan #将0行2列的值改为nan df.iloc[0,2] =np.nan print(df)
输出结果为修改后的df:
A B C D 2021-05-15 0 NaN NaN 3 2021-05-16 4 5.0 6.0 7 2021-05-17 8 9.0 10.0 11 2021-05-18 12 13.0 14.0 15 2021-05-19 16 17.0 18.0 19 2021-05-20 20 21.0 22.0 23
1.dropna 按行或列删除
axis = 0表示删除整行, axis = 1表示删除整列
how可以选择为any或者all:any表示有缺失值就删除 all表示全部都为缺失值才删除
df.dropna(axis = 0,how = 'any')
输出结果:
删除了有nan的一整行
A B C D 2021-05-16 4 5.0 6.0 7 2021-05-17 8 9.0 10.0 11 2021-05-18 12 13.0 14.0 15 2021-05-19 16 17.0 18.0 19 2021-05-20 20 21.0 22.0 23
2.fillna 缺失值填充
fillna(value = n) n为需要填充的值,一般选择为0
df.fillna(value = 0)
输出结果:
A B