初识pandas库与缺失数据的补全
按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值
- 打开数据(csv文件、excel文件)
- 查看数据(尺寸信息、查看列名等方法)
- 查看空值
- 众数、中位数填补空值
- 利用循环补全所有列的空值
完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯
步骤①打开数据(csv文件、excel文件)
import pandas as pd
data = pd.read_csv(r'data.csv')
data2 =pd.read_excel('data.xlsx')
步骤②查看数据(尺寸信息、查看列名等方法)
type(data)
data.info()
data.shape
data.columns
data.describe()
data.dtypes
data["Annual Income"].dtype
步骤③查看空值
data.isnull()
步骤④众数、中位数填补空值
data['Annual Income']
median_income = data['Annual Income'].median()
data['Annual Income'].fillna(median_income, inplace=True)
data['Annual Income'].isnull().sum()
import pandas as pd
data = pd.read_csv('data.csv')
mode = data['Annual Income'].mode()
mode = mode[0]
data['Annual Income'].fillna(mode, inplace=True)
data['Annual Income'].isnull().sum()
步骤⑤利用循环补全所有列的空值
import numpy as np
a =np.array([1,2,3])
for i in c:
if data[i].dtype != 'object':
if data[i].isnull().sum() > 0:
mean_value = data[i].mean()
用均值填充缺失值
data[i].fillna(mean_value, inplace=True)
data.isnull().sum()