我想根据字符串中是否有一个字符串重复来删除数据帧中的行.例如,如果字符串是jkl-ghi-jkl,我会删除此行,因为jkl重复两次.我认为创建一个列表并检查列表中的重复项是理想的方法.
此示例的我的数据帧包含1列和两个数据点:
df1 = pd.DataFrame({'Col1' : ['abc-def-ghi-jkl', 'jkl-ghi-jkl-mno'],})
我采取的第一步是对我的数据应用拆分,并拆分“ – ”
List = df1['Col1].str.split('-')
List
哪个产生输出:
0 [abc, def, ghi, jkl]
1 [jkl, ghi, jkl, mno]
Name: Col1, dtype: object
我采取的第二步是将输出转换为列表:
List = List.tolist()
产量:
[['abc', 'def', 'ghi', 'jkl'], ['jkl', 'ghi', 'jkl', 'mno']]
我希望完成的最后一步是将完整列表与不同的唯一值列表进行比较:
len(List) > len(set(List))
这会产生错误:
TypeError: unhashable type: 'list'
我知道我的.tolist()创建了一个2系列的列表.有没有办法将这些系列转换为列表以测试重复?我希望使用这段代码:
len(List) > len(set(List)
使用drop来删除每个单元格中具有重复值的所有行.
这是正确的接近方式,还是有更简单的方法?
我的结束输出应该如下所示:
Col1
abc-def-ghi-jkl
因为字符串jkl-ghi-jkl-mno因“jkl”重复两次而被删除