Python训练营打卡Day4(2025.4.23)

初识pandas库与缺失数据的补全

按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值

  1. 打开数据(csv文件、excel文件)
  2. 查看数据(尺寸信息、查看列名等方法)
  3. 查看空值
  4. 众数、中位数填补空值
  5. 利用循环补全所有列的空值

完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯

 数据的读取和查看

# 读取数据
import pandas as pd
data = pd.read_csv(r'data.csv')

type(data) # 类

data.isnull()            # 布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,也是dataframe对象,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。

data.head(15) #读取前15行

#用openpyxl库读取xlxs文件
data2 =pd.read_excel('data.xlsx')
data2

data2.head(15)

数据信息的查看

data.info()       # 列名、非空值、数据类型
data.shape        # (行数, 列数) data的属性
data.columns      # 所有列名 data的属性
data.describe()   # 数值列的基本统计量
# dtype是data type的缩写,用于描述数据类型。后续会频繁借助这个方法来查看某一列数据的属性
data.dtypes       # 各列数据类型
data.info()
data["Annual Income"].dtype # 查看某一列的数据类型
data.isnull() 
type(data.isnull())         # 布尔矩阵显示缺失值,这个方法返回一个布尔矩阵,其中True表示对应位置的值是缺失值,False表示对应位置的值不是缺失值。
data["Annual Income"].isnull().sum() #求单列的和(单列缺失数据个数)
data.isnull().sum()      # 每列缺失值计数,sum方法为求每一列的和

缺失值的填补

 使用中位数进行填补

data['Annual Income']
type(data['Annual Income'])
# dataframe里单独的一列是series
# 计算 'Annual Income' 列的中位数(会自动忽略 NaN 值)
median_income = data['Annual Income'].median()
median_income

# 使用计算出的中位数填补该列的 NaN 值
# inplace=True 参数表示直接在原 DataFrame 上进行修改
# 如果不设置该参数,fillna() 方法会返回一个新的 DataFrame,原 DataFrame 不会被修改
data['Annual Income'].fillna(median_income, inplace=True)
# 检查下是否有缺失值
data['Annual Income'].isnull().sum()

 使用众数进行填补

# 使用众数填充缺失值
import pandas as pd
data = pd.read_csv('data.csv') #需要重新读取一遍数据(实际进行填补时与中位数选其一)
mode = data['Annual Income'].mode()
# mode() 会返回数据中出现频率最高的所有值,如果频次相同,会返回最多每个值。
mode

# 这里返回了4个最多频次的值,我们一般保留第一个
mode = mode[0]

# 众数填补
#data['Annual Income'].fillna(mode, inplace=True)
data['Annual Income']=data['Annual Income'].fillna(mode)
# 检查下是否有缺失值
data['Annual Income'].isnull().sum()

填补所有的数据值缺失值

data.columns

type(data.columns)

# tolist方法,将numpy数组和pandas对象转换成list
import numpy as np
a =np.array([1,2,3])
a.tolist()

c = data.columns.tolist()
type(c)

# 循环遍历c这个列表中的每一列
for i in c:
    # 找到为数值型的列
    if data[i].dtype != 'object': # 找到为数值型的列
        if data[i].isnull().sum() > 0: # 找到存在缺失值的列
            #计算该列的均值
            mean_value = data[i].mean()
            #用均值填充缺失值
            #data[i].fillna(mean_value, inplace=True)
            data[i]=data[i].fillna(mean_value)

data.isnull().sum()

 @浙大疏锦行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值