八.数据清洗

最新推荐文章于 2025-04-02 11:13:55 发布

金灰

最新推荐文章于 2025-04-02 11:13:55 发布

阅读量952

点赞数 30

分类专栏： # 数据分析文章标签： pandas python pycharm jupyter 大数据安全开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2303_80857229/article/details/136862889

版权

数据分析专栏收录该内容

22 篇文章

订阅专栏

目录

八.数据清洗

删一行或列

检测某一列是否为空值.

自定义空值类型

移除某一类带空值的行

使用某个值进行填充

2.清洗格式有误

日期格式有误

3.清洗重复值(drop_)duplicates

1.清洗空值

import pandas as pd
import numpy as np
data = pd.DataFrame({'姓名':['kun','鸡哥','华哥','凡哥'],'年龄':[23,5,3,42],'爱好':['篮球','街舞','王者','吃'],'地址':[np.nan,'广东','厦门',np.nan]})
data
---------------
    姓名  年龄  爱好   地址
0  kun  23  篮球  NaN
1   鸡哥   5  街舞   广东
2   华哥   3  王者   厦门
3   凡哥  42   吃  NaN

删一行或列

如果我们要删除包含空字段的行，可以使用 dropna() 方法，语法格式如下：

data.dropna(axis="index", how="any",inplace=False)

#删除空字段的 行.
data.dropna(axis='index',how='any',inplace=True)
print(data)
-----------
   姓名  年龄  爱好  地址
1  鸡哥   5  街舞  广东
2  华哥   3  王者  厦门

检测某一列是否为空值.

#检测某一列是否为空值.
data['地址']
print(data['地址'].isnull())
----------------
0     True
1    False
2    False
3     True
Name: 地址, dtype: bool

自定义空值类型

#自定义空值类型.--->NaN
miss_value = ['--',18]
data2 = pd.read_csv('student.csv',na_values=miss_value)
# data2.dropna(axis='index',how='any',inplace=True)
print(data2)

移除某一类带空值的行

#移除某一类带空值的  行.
data2.dropna(subset=['age'],inplace=True)
print(data2)

使用某个值进行填充

替换空单元格的常用方法是计算列的均值、中位数值或众数 mean()、median()，mode()。

#填充全部.
# data2.fillna(0,inplace=True)
# data2

#填充某列.
data2['age'].fillna(data2['age'].mean(),inplace=True)
data2

2.清洗格式有误

日期格式有误

--自动修改.

data = {
  "Date": ['2020/12/01', '2020/12/02' , '20201226'],
  "salary": [5000, 4000, 45000]
}

df_data = pd.DataFrame(data, index = ["day1", "day2", "day3"])
print(df_data)

df_data["Date"] = pd.to_datetime(df_data["Date"])
df_data
-----------
         Date  salary
day1 2020-12-01    5000
day2 2020-12-02    4000
day3 2020-12-26   45000

错误数据

# 单个修改
df_data.loc["day3","salary"] = 4500
df_data

# 批量修改
for data in df_data.index:
    if df_data.loc[data,"salary"] > 10000:
       df_data.loc[data,"salary"] =  df_data.loc[data,"salary"] / 10
df_data

3.清洗重复值(drop_)duplicates

df_data = pd.DataFrame({
    "name":["苹果","华为","苹果","小米"],
    "price":[1000,1200,1000,800]
})
# df_data

# 检测重复值
df_data.duplicated()

# 删除重复值
df_data.drop_duplicates(inplace=True)
df_data

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

金灰 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。