pandas删除数据、空缺值处理、重复值处理

最新推荐文章于 2022-12-04 22:49:27 发布

Ckyeka

最新推荐文章于 2022-12-04 22:49:27 发布

阅读量821

点赞数

分类专栏： python 文章标签：数据分析 pandas python

本文链接：https://blog.csdn.net/Shallowmm/article/details/113028438

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.删除指定的行或列

t1 = pd.DataFrame(np.arange(12).reshape((3,4)).astype("int"), index = list("abc"), columns = list("ABCD"))

#若不指定轴则 默认删除行
t1.drop('a', inplace = False)
#指定axis=1 则删除列
t1.drop('A', axis = 1, inplace = False)
t1.drop(['A', 'B'], axis = 1, inplace = False)

2.空缺值处理

#缺失数据处理
t1 = pd.DataFrame(np.arange(12).reshape((3,4)).astype("int"), index = list("abc"), columns = list("ABCD"))
t1.iloc[0,0] = np.nan

#判断是否为nan 返回一个值为布尔类型的DataFrame
pd.isnull(t1) 
pd.notnull(t1)

t1[pd.notnull(t1['A'])]

#去除空缺值 any代表行/列只要出现nan就删除 all代表全部为nan时才删除
t1.dropna(axis = 0, how = "any", inplace =False)
t1.dropna(axis = 0, how = "all", inplace = False)

#空缺值填充
t1.fillna(t1.mean())

3.重复值处理

df= pd.DataFrame({'k1': [ 's1']* 3 + ['s2']* 5,'k2' : [1, 2, 3, 4, 5, 6, 4,4]})
print(df)

#判断是否存在重复值 返回一列布尔值
df.duplicated()
df.duplicated('k2')
df.duplicated(['k1', 'k2'])

df.drop_duplicates(inplace = False)
df.drop_duplicates('k2',inplace = False)
df.drop_duplicates(['k1', 'k2'],inplace = False)

Ckyeka

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
pandas删除数据、空缺值处理、重复值处理

1.删除指定的行或列t1 = pd.DataFrame(np.arange(12).reshape((3,4)).astype("int"), index = list("abc"), columns = list("ABCD"))#若不指定轴则默认删除行t1.drop('a', inplace = False)#指定axis=1 则删除列t1.drop('A', axis = 1, inplace = False)t1.drop(['A', 'B'], axis = 1, inplace
复制链接

扫一扫

专栏目录