Python从序列中移除重复项目并且保持元素间顺序不变

1.问题
我们想去除序列中重复出现元素,但仍然保持剩下的元素顺序不变。
2.解决方案
如果序列中的值是可哈希(hashable)的,那么这个问题可以通过使用集合和生成器轻松解决。示例如下:

def dedupe(items):
        seen=set()
        for item in items:
                if item not in seen:
                        yield item
                        seen.add(item)
a=[1,2,1,5,9,10,5]
print(list(dedupe(a)))

只有当序列中的元素是可哈希的时候才可能这么做。如果想在不可哈希的对象(比如列表)序列中去除重复项,需要对上述代码稍作修改:

def dedupe(items,key=None):
        seen=set()
        for item in items:
                val=item if key is None else key(item)
                if val not  in seen:
                        yield item
                        seen.add(val)

这里参数key的作用是指定一个函数用来将序列中的元素转换为可哈希的类型,这么做的目的是为了检测重复项。它可以像这样工作:

def dedupe(items,key=None):
        seen=set()
        for item in items:
                val=item if key is None else key(item)
                if val not  in seen:
                        yield item
                        seen.add(val)
a=[{'x':1,'y':2},{'x':1,'y':3},{'x':1,'y':2},{'x':2,'y':4}]
print(list(dedupe(a,key=lambda d:(d['x'],d['y']))))
print(list(dedupe(a,key=lambda d:d['x'])))

如果希望在一个较复杂的数据结构中,只根据对象的某个字段或属性来去除重复项,那么后一种解决方案同样能完美工作。
3.讨论
如果想要做的只是去除重复项,那么通常足够简单的方法就是构建一个集合。例如:

a=[1,5,2,9,1,1,5,10]
set(a)

但是这种方法不能保证元素间的顺序不变,因此得到的结果会被打乱。前面展示的解决方案可以避免出现这个问题。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值