Python打卡 DAY 4

最新推荐文章于 2025-04-28 09:38:40 发布

冰轮a

最新推荐文章于 2025-04-28 09:38:40 发布

阅读量522

点赞数 16

分类专栏： Python打卡文章标签： python

本文链接：https://blog.csdn.net/2401_86098690/article/details/147463825

版权

Python打卡专栏收录该内容

9 篇文章

订阅专栏

初识pandas库与缺失数据的补全

按照示例代码的要求，去尝试补全信贷数据集中的数值型缺失值

1. 打开数据（csv文件、excel文件）

2. 查看数据（尺寸信息、查看列名等方法）

3. 查看空值

4. 众数、中位数填补空值

5. 利用循环补全所有列的空值

完成后在py文件中独立完成一遍，并且利用debugger工具来查看属性（不借助函数显式查看）----养成利用debugger工具的习惯

1. 打开数据（csv文件、excel文件）

# 读取数据
import pandas as pd
data = pd.read_csv(r'data.csv')

# pip install openpyxl
# pandas读取excel需要安装openpyxl库，去anaconda prompt中安装
data2 =pd.read_excel('data.xlsx')
data2

2. 查看数据（尺寸信息、查看列名等方法）3. 查看空值

type(data) # 类
data.isnull() # 布尔矩阵显示缺失值
data.head(10) # 显示样本
data.info() # 列名、非空值、数据类型
data.shape # (行数, 列数) data的属性
data.columns # 所有列名 data的属性
data.describe() # 数值列的基本统计量（众数等）
# dtype是data type的缩写，用于描述数据类型。后续会频繁借助这个方法来查看某一列数据的属性
data.dtypes # 各列数据类型
data["Annual Income"].dtype # 查看某一列的数据类型
data.isnull().sum()      # 每列缺失值计数,sum方法为求每一列的和

4. 众数、中位数填补空值

# 计算 'Annual Income' 列的中位数（会自动忽略 NaN 值）
median_income = data['Annual Income'].median()
#中位数填补
data['Annual Income'].fillna(median_income, inplace=True)
# 检查下是否有缺失值
data['Annual Income'].isnull().sum()

# 使用众数填充缺失值
import pandas as pd
data = pd.read_csv('data.csv') #需要重新读取一遍数据
mode = data['Annual Income'].mode()
# mode() 会返回数据中出现频率最高的所有值，如果频次相同，会返回最多每个值。
mode
# 这里返回了4个最多频次的值，我们一般保留第一个
mode = mode[0]
# 众数填补
data['Annual Income'].fillna(mode, inplace=True)
# 检查下是否有缺失值
data['Annual Income'].isnull().sum()

5. 利用循环补全所有列的空值

data.columns
type(data.columns)
# 介绍一下tolist方法，将numpy数组和pandas对象转换成list
import numpy as np
a =np.array([1,2,3])
a.tolist()
c = data.columns.tolist()
type(c)

# 循环遍历c这个列表中的每一列
for i in c:
    # 找到为数值型的列
    if data[i].dtype != 'object': # 找到为数值型的列
        if data[i].isnull().sum() > 0: # 找到存在缺失值的列
            #计算该列的均值
            mean_value = data[i].mean()
            #用均值填充缺失值
            data[i].fillna(mean_value, inplace=True)

data.isnull().sum()

@浙大疏锦行