python打卡day4@浙大疏锦行

初识pandas库与缺失数据的补全

按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值

  1. 打开数据(csv文件、excel文件)
  2. 查看数据(尺寸信息、查看列名等方法)
  3. 查看空值
  4. 众数、中位数填补空值
  5. 利用循环补全所有列的空值

完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯

步骤①打开数据(csv文件、excel文件)

import pandas as pd
data = pd.read_csv(r'data.csv') 
data2 =pd.read_excel('data.xlsx') 

步骤②查看数据(尺寸信息、查看列名等方法)

type(data)       
data.info()     
data.shape       
data.columns     
data.describe()   
data.dtypes       
data["Annual Income"].dtype      

步骤③查看空值

data.isnull()           

步骤④众数、中位数填补空值

data['Annual Income']
median_income = data['Annual Income'].median()
data['Annual Income'].fillna(median_income, inplace=True)
data['Annual Income'].isnull().sum() 
import pandas as pd
data = pd.read_csv('data.csv') 
mode = data['Annual Income'].mode()
mode = mode[0]
data['Annual Income'].fillna(mode, inplace=True)  
data['Annual Income'].isnull().sum()

步骤⑤利用循环补全所有列的空值

import numpy as np
a =np.array([1,2,3])
for i in c:
    if data[i].dtype != 'object': 
        if data[i].isnull().sum() > 0: 
           mean_value = data[i].mean()
           用均值填充缺失值
           data[i].fillna(mean_value, inplace=True)
 data.isnull().sum()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值