Jupyter 数据重复值处理

最新推荐文章于 2024-05-02 11:52:05 发布

卡卡卡卡NI

最新推荐文章于 2024-05-02 11:52:05 发布

阅读量8.1k

点赞数 4

分类专栏： python学习

本文链接：https://blog.csdn.net/skn000/article/details/104628466

版权

python学习专栏收录该内容

8 篇文章 3 订阅

订阅专栏

import os
import pandas as pd
import numpy as np
os.chdir('D:\Workspaces\Jupyter')
df = pd.read_excel('data_test.xlsx')
df
# 重复的是true
df.duplicated()
# 显示
df[df.duplicated()]
# 按照这两项查是否有重复值
df.duplicated(subset=['EventSubType','EventType'])
df[df.duplicated(subset=['EventSubType','EventType'])]
# 把最后一个设为保留值，前面的算重复值
df.duplicated(subset=['EventSubType','EventType'],keep='last')
# 完全重复的数量
np.sum(df.duplicated())
# 删除完全重复的
df.drop_duplicates()
# 删除这两项重复的
df.drop_duplicates(subset=['EventSubType','EventType'])