python ：pandas数据处理

最新推荐文章于 2022-05-11 22:29:35 发布

瀚海蓝甘

最新推荐文章于 2022-05-11 22:29:35 发布

阅读量544

点赞数 1

本文链接：https://blog.csdn.net/weixin_42424451/article/details/95524046

版权

本文详细介绍了Python中Pandas库的数据处理方法，包括删除重复元素、映射操作、替换值、映射新列、替换索引以及数据异常值检测和过滤。涉及的函数有drop_duplicates(), replace(), map(), rename()以及describe()等，提供了丰富的示例说明。" 136754222,1467541,ElasticSearch在渔业航迹数据优化中的应用,"['数据同步', 'Elasticsearch', 'GIS开发', 'Java开发', '数据库优化']

摘要由CSDN通过智能技术生成

pandas数据处理

1、删除重复元素

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True

使用drop_duplicates()函数删除重复的行
使用duplicated()函数查看重复的行

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

df=DataFrame(data=np.random.randint(0,100,size=(8,3)),columns=list(“ABC”))
df.loc[3]=df.loc[1]
df.loc[5]=df.loc[1]
df
#=================================
A B C
0 63 33 92
1 72 16 51
2 60 8 16
3 72 16 51
4 52 80 19
5 72 16 51
6 8 85 40
7 91 14 14
keep表示要保留哪一个重复行，first保留第一个，last表示保留最后一个
df.duplicated(keep=“last”)
可以借助dupicated函数来过滤出重复的行
df[df.duplicated(keep=“first”)]
可以使用重复行的索引对重复行进行删除
df.drop(df[df.duplicated(keep=“first”)].index)
可以直接使用drop_duplicates删除重复行
df.drop_duplicates(keep=“first”)
如果使用pd.concat([df1,df2],axis = 1)生成新的DataFrame，新的df中columns相同，使用duplicate()和drop_duplicates()都会出问题

映射

映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定

包含三种操作：

replace()函数：替换元素（DataFrame\Series的函数)
最重要：map()函数：新建一列(Series的函数)
rename()函数：替换索引(DataFrame的函数)

replace()函数：替换元素

使用replace()函数，对values进行替换操作

dic = {
    "name":["lucy","mery","tom"],
    "age":[29,25,18],
    "address":["北京",np.nan,"上海"]
}
df = DataFrame(data=dic)
df
#======================================================
  address	age	name
0	北京	29	lucy
1	NaN	25	mery
2	上海	18	tom