去除序列中出现的重复元素,但仍然可以保持元素的顺序不变
如果序列中的值是可哈希的,那么这个问题可以通过使用集合和生成器解决:
首先先介绍下这里提到的可哈希
hash是一种函数映射,称为hash函数,y=hash_func(x),可hash就是指对于一个对象x有其对应的y。在python内部是通过字典key的hash值来对应内存中的value地址的,所以两个相同hash的key就表示同一个了,而不可hash的对象自然也不能作为字典的key, 简单来说就是不可变类型
def dedupe(items):
seen = set()
for item in items:
if item not in seen:
yield item
seen.add(item)
>>>a = [1,2,5,3,5,2,34,54,54,54,54,99]
>>>list(dedupe(a)
>>>[1,2,5,3,34,54,99]
只有当序列中的元素是可哈希的时候才可以这么做,如果是不可哈希的对象(比如列表)中去除重复项,可以使用下面的方法:
def dedupe(items, key=None):
seen = set()
for item in items:
# 将序列中的元素转换成可哈希元素
val = item if key is None else key(item)
if val not in items:
yield item
seen.add(val)
如果只是去除重复项,那么使用集合就可以实现
>>> a
>>> [1,4,2,1,6,1,5,10]
>>> set(a)
>>> {1, 2, 4, 5, 6, 10}
但是这种方法不能保证元素之间的顺序不变,所以结果被打乱