python数据分析—删除value=0的行

最新推荐文章于 2024-07-10 18:35:26 发布

小白只对大佬的文章感兴趣

最新推荐文章于 2024-07-10 18:35:26 发布

阅读量1.9w

点赞数 12

分类专栏：机器学习文章标签： python 机器学习

本文链接：https://blog.csdn.net/ex_6450/article/details/126867123

版权

机器学习专栏收录该内容

19 篇文章

订阅专栏

本文介绍了在Pandas中如何进行数据处理，包括使用df.replace()方法将特定值替换，利用loc方法删除特定条件的行，以及多种删除包含0或NaN的行的方法。通过实例展示了数据预处理的常用技巧，帮助读者掌握数据清洗的关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.用nan替换零，然后删除所有行中数据都为nan的行。之后，将nan替换为零。

3.删除某行中某个值为0的行

4.使用lambda函数来删除行

前言

拿到一堆数据，首先我们是要对其进行数据的预处理，其中数据存在一些值为空或者是我们不想要的数据，对其进行删除或者是修改数据值。下面是对于该例子进行删除和修改：

>>> df
out[]:
   salary   age   gender
0   10000    23     男
1   15000    34     女
2   23000    21     男
3     0      20     女
4   28500     0     男
5   35000    37     男

一、数据处理

1. df.replace()方法：将“男”用1来表示，“女孩”用0来表示。

>>> df.replace(["男", "女"], [1, 0])
out[]:
   salary   age   gender
0   10000    23     1
1   15000    34     0
2   23000    21     1
3     0      20     0
4   28500     0     1
5   35000    37     1

2. pd.DataFrame.loc（）方法来指定列中数据为0的行:

>>> df = df.loc[~((df['salary'] == 0) | (df['age'] == 0))]
>>> df
out[]:
   salary   age   gender
0   10000    23     1
1   15000    34     0
2   23000    21     1
3   35000    37     1

还可以用：

df = df.loc[df['salary'] * df['age'] != 0]

二、删除某行方法的使用

1.删除全行都是为0的行

代码如下：

>>> df.loc[~(df==0).all(axis=1)]

看起来比较对称可以这样写：

>>> df.loc[(df!=0).any(axis=1)]

使用dropna方法来删除：

>>> new_df = df[df.loc[:]!=0].dropna()

2.用nan替换零，然后删除所有行中数据都为nan的行。之后，将nan替换为零。

代码如下：

import numpy as np
df = df.replace(0, np.nan)# 把0替换成nan
df = df.dropna(how='all', axis=0)# 删除所有为nan的行
df = df.replace(np.nan, 0)# 再把nan替换成0

3.删除某行中某个值为0的行

代码如下：|

>>> df= df[df['salary'] != 0]

4.使用lambda函数来删除行

代码如下：

import pandas as pd
import numpy as np

np.random.seed(0)

df = pd.DataFrame(np.random.randn(5,3),
                  index=['one', 'two', 'three', 'four', 'five'],
                  columns=list('abc'))

df.loc[['one', 'three']] = 0 # 把第一行和第三行改为0

print(df)
print(df.loc[~df.apply(lambda row: (row==0).all(), axis=1)])

输出为：

要在任何行中删除所有值为0的列：

new_df = df[df.loc[:]!=0].dropna()
new_df

输出为：