筛选df中某列重复值的索引

最新推荐文章于 2024-06-13 17:43:07 发布

*Snowgrass*

最新推荐文章于 2024-06-13 17:43:07 发布

阅读量2.9k

点赞数 1

分类专栏： Python基础知识文章标签： df 筛选列重复数据

本文链接：https://blog.csdn.net/qq_36535820/article/details/103198141

版权

Python基础知识专栏收录该内容

67 篇文章 3 订阅

订阅专栏

DataFrame数据

import pandas as pd
data = {'year': ['2018', '2019', '2016', '2012', '2013', '2016',
                 '2018', '2019'],
        'variable': ['A','A','A','B','B','C','C','C'],
        'value': [3.0 ,4.0 ,6.0 ,3.0 ,8.0 ,4.0 ,10.0 ,4.0 ]}
df = pd.DataFrame(data)
df
Out[1]: 
   year variable  value
0  2018        A    3.0
1  2019        A    4.0
2  2016        A    6.0
3  2012        B    3.0
4  2013        B    8.0
5  2016        C    4.0
6  2018        C   10.0
7  2019        C    4.0

方法一：利用DataFram的groupby函数及lambda函数进行筛选重复数据，显示重复内容及重复内容在DataFram中的索引位置。

df.groupby('value').apply(
    lambda d: tuple(d.index) if len(d.index) > 1 else None
).dropna()

Out[2]: 
value
3.0       (0, 3)
4.0    (1, 5, 7)
dtype: object

方法二：利用DataFram的groupby函数及for迭代进行筛选重复数据，显示重复内容及重复内容在DataFram中的索引位置。

{k: tuple(d.index) for k, d in df.groupby('value') if len(d) > 1}
Out[3]: {3.0: (0, 3), 4.0: (1, 5, 7)}

*Snowgrass*

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
筛选df中某列重复值的索引

DataFrame数据import pandas as pddata = {'year': ['2018', '2019', '2016', '2012', '2013', '2016', '2018', '2019'], 'variable': ['A','A','A','B','B','C','C','C'], 'val...
复制链接

扫一扫

专栏目录