Python训练营打卡DAY4

最新推荐文章于 2025-04-27 11:24:03 发布

LiShopping

最新推荐文章于 2025-04-27 11:24:03 发布

阅读量240

点赞数 9

分类专栏： Python打卡训练营内容文章标签： python 开发语言

本文链接：https://blog.csdn.net/m0_62925859/article/details/147459389

版权

Python打卡训练营内容专栏收录该内容

6 篇文章

订阅专栏

初识pandas库与缺失数据的补全

打开数据（csv文件、excel文件）

import pandas as pd # 导入pandas库
data=pd.read_csv(r'data.csv')   # 读取csv文件
type(data)   # 查看数据类型
data.head(10)  # 查看前10行数据
data2=pd.read_excel(r'data.xlsx')   # 读取excel文件

查看数据（尺寸信息、查看列名等方法）

data.info()       # 列名、非空值、数据类型
data.shape        # 查看数据形状
data.columns      # 查看列名
data.dtypes       # 查看数据类型
data.describe()   # 查看数据描述性统计信息
data['Annual Income']   # 查看某一列数据
data['Annual Income','Spending Score']   # 查看某几列数据
data['Annual Income'].dtype   # 查看某一列数据类型

查看空值

data.isnull() # 查看缺失值
data.isnull().sum()      # 每列缺失值计数,sum方法为求每一列的和

众数、中位数填补空值

# 使用中位数填充缺失值
data['Annual Income']
type(data['Annual Income'])
median_income = data['Annual Income'].median() # 计算 'Annual Income' 列的中位数（会自动忽略 NaN 值）
data['Annual Income'].fillna(median_income, inplace=True) # 使用计算出的中位数填补该列的 NaN 值
data['Annual Income'].isnull().sum() # 检查下是否有缺失值

# 使用众数填充缺失值
import pandas as pd
data = pd.read_csv('data.csv') #需要重新读取一遍数据
mode = data['Annual Income'].mode()
# 这里返回了4个最多频次的值，我们一般保留第一个
mode = mode[0]
# 众数填补
data['Annual Income'].fillna(mode, inplace=True)
# 检查下是否有缺失值
data['Annual Income'].isnull().sum()

利用循环补全所有列的空值

data.columns
type(data.columns)
import numpy as np
c = data.columns.tolist()
type(c)
# 循环遍历c这个列表中的每一列
for i in c:
    # 找到为数值型的列
    if data[i].dtype != 'object': # 找到为数值型的列
        if data[i].isnull().sum() > 0: # 找到存在缺失值的列
            #计算该列的均值
            mean_value = data[i].mean()
            #用均值填充缺失值
            data[i].fillna(mean_value, inplace=True)

data.isnull().sum()