Python数据分析数据可视化-----学了就会的Pandas数据去重及替换

最新推荐文章于 2022-09-02 14:28:28 发布

多欢喜 

最新推荐文章于 2022-09-02 14:28:28 发布

阅读量459

点赞数

分类专栏：数据分析核心工具Pandas 文章标签：可视化 python 数据分析人工智能

本文链接：https://blog.csdn.net/duohuanxi/article/details/105404256

版权

12 篇文章 2 订阅

订阅专栏

最近期中考试来啦，所以更新也不是很及时了，但是没关系，更新可能会迟到，但不会缺席！
这篇博客写一下数据的去重和替换以及数据分组
（1）去重—.duplicated
数据的去重就是去除数据中重复的部分，pandas中主要是通过duplicated来实现

创建Series数据

s = pd.Series([1,1,1,1,2,2,2,3,4,5,5,5,5])
print(s)

输出结果：
在这里插入图片描述
判断是否重复，重复的话返回True

print(s.duplicated())

输出结果：
在这里插入图片描述
筛选不重复的值

print(s[s.duplicated() == False])

输出结果：
在这里插入图片描述
我们可以找到重复的值，也可以移除重复的值，通过drop_duplicates( ) 来实现，参数默认为False，不替换原值

s_re = s.drop_duplicates()
print(s_re)

输出结果：
在这里插入图片描述
再来看一下在Dataframe中使用duplicated

df = pd.DataFrame({'key1':['a','a',3,4,5],
                  'key2':['a','a','b','b','c']})
print(df.duplicated())
print(df['key2'].duplicated())

输出结果：
在这里插入图片描述
（2）替换----replace
我们可以替换数组中的某些值，通过replace来实现
创建Series数组

s = pd.Series(list('ascaazsd'))
print(s)

输出结果：
在这里插入图片描述
把‘a’替换成空值

print(s.replace('a', np.nan))

输出结果：
在这里插入图片描述
把‘a’替换成‘hello world！’，把‘s’替换成‘123’

print(s.replace({'a':'hello world!','s':123}))

输出结果：
在这里插入图片描述

关注