最近期中考试来啦,所以更新也不是很及时了,但是没关系,更新可能会迟到,但不会缺席!
这篇博客写一下数据的去重和替换以及数据分组
(1)去重—.duplicated
数据的去重就是去除数据中重复的部分,pandas中主要是通过duplicated来实现
创建Series数据
s = pd.Series([1,1,1,1,2,2,2,3,4,5,5,5,5])
print(s)
输出结果:
判断是否重复,重复的话返回True
print(s.duplicated())
输出结果:
筛选不重复的值
print(s[s.duplicated() == False])
输出结果:
我们可以找到重复的值,也可以移除重复的值,通过drop_duplicates( ) 来实现,参数默认为False,不替换原值
s_re = s.drop_duplicates()
print(s_re)
输出结果:
再来看一下在Dataframe中使用duplicated
df = pd.DataFrame({'key1':['a','a',3,4,5],
'key2':['a','a','b','b','c']})
print(df.duplicated())
print(df['key2'].duplicated())
输出结果:
(2)替换----replace
我们可以替换数组中的某些值,通过replace来实现
创建Series数组
s = pd.Series(list('ascaazsd'))
print(s)
输出结果:
把‘a’替换成空值
print(s.replace('a', np.nan))
输出结果:
把‘a’替换成‘hello world!’,把‘s’替换成‘123’
print(s.replace({'a':'hello world!','s':123}))
输出结果: