Python 字典组成的数组怎么进行去重?

最新推荐文章于 2023-05-13 19:21:56 发布

VIP_CQCRE

最新推荐文章于 2023-05-13 19:21:56 发布

阅读量1.3k

点赞数 2

文章标签： python 开发语言

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg3MjU3NzU1OA==&mid=2247514121&idx=2&sn=b195082412d27ae7f37a3aa7ec68507c&chksm=ceefd770f9985e66e840e1f0b665b077d68934d97845bab3da06b655907e51875519cce46069&scene=126&sessionid=0

版权

这是「进击的Coder」的第 766 篇技术分享

作者：Ckend

来源：Python 实用宝典

“

阅读本文大概需要 5 分钟。

”

你知道吗？如果数组是字典组成的，直接对数组内的字典采用 set 的方式进行去重，会报错：

test = [{"a": 1}, {"a": 1}, {"a": 3}, {"b": 4}]
test = list(set(test))
>>> TypeError: unhashable type: 'dict'

因为使用 set 去重的前提是该对象为不可变对象，而字典是可变对象，因此无法直接使用该方法去重。

那么怎么解决这个问题呢？有三个办法。

1.使用 reduce 方法

reduce() 函数会对参数序列中元素进行累积。

比如：

from functools import reduce
def add(x, y) :            # 两数相加
    return x + y

print(reduce(add, [1,2,3,4,5])) # 计算列表和：1+2+3+4+5
# 15

上述写法也能用 lambda 函数简化为：

from functools import reduce
print(reduce(lambda x, y: x+y, [1,2,3,4,5])) # 使用 lambda 匿名函数
# 15

因此，我们自己编写一个函数进行数组内的字典去重：

from functools import reduce

data = [{"a": 1}, {"a": 1}, {"a": 3}, {"b": 4}]
result = []
def unduplicate(result, data):
    if data not in result:
        result = result + [data]
    return result

for i in data:
    result = unduplicate(result, i)

print(result)
# [{'a': 1}, {'a': 3}, {'b': 4}]

稍显复杂，如果使用 reduce 函数和 lambda 函数，代码能简化很多：

def delete_duplicate(data):
    func = lambda x, y: x + [y] if y not in x else x
    data = reduce(func, [[], ] + data)
    return data

print(delete_duplicate(data))
# [{'a': 1}, {'a': 3}, {'b': 4}]

当然，我也能一行写完这个功能：

data = reduce(lambda x, y: x + [y] if y not in x else x, [[], ] + data)

只不过有可能会被打死在工位上，所以不建议这么干。

2.奇怪的技巧

就如文章开头提到的，字典之所以不能用 set 去重，是因为它是可变对象。

但是...如果我们把它变成不可变对象呢？

data = [{"a": 1}, {"a": 1}, {"a": 3}, {"b": 4}]
def delete_duplicate(data):
    immutable_dict = set([str(item) for item in data])
    data = [eval(i) for i in immutable_dict]
    return data
print(delete_duplicate(data))
# [{'a': 1}, {'a': 3}, {'b': 4}]

没错，这能成。

1.遍历字典，将每个子项变成字符串存放到数组中，再通过 set 函数去重。

2.通过 eval 函数，将去重后的数组里的每个子项重新转化回字典。

如此 Python，怎能不好玩？

3.高效的方式

上面讲了两种骚操作，其实都不太建议在实际工作中使用。

一个原因是真的太骚了，怕被打趴在工位上。

另一个原因是，它们在应对较大数据量的时候，性能不太行。

下面是最正统的方式：

data = [dict(t) for t in set([tuple(d.items()) for d in data])]
# data:
# [{'a': 1}, {'b': 2}]

其实和第二种方式一样，是将数组内的每个字典转成元组，也就是不可变对象，再使用 set 进行去重。去重完毕后再使用 dict 函数将元组重新组成字典对。

但是，这种方法对于字典内还有字典的数据结构是不适用的，因此对于字典对里还有字典情况的去重，比如：

data2 = [{"a": {"b": "c"}}, {"a": {"b": "c"}}]

这种情况我建议使用第二种方式去重：

data2 = [{"a": {"b": "c"}}, {"a": {"b": "c"}}]
def delete_duplicate_str(data):
    immutable_dict = set([str(item) for item in data])
    data = [eval(i) for i in immutable_dict]
    return data
print(delete_duplicate_str(data2))
# [{'a': {'b': 'c'}}]

怎么样，这三种方式你都学会了吗？

如果觉得有收获的话记得收藏一下。以后遇到类似的去重场景时可以拿出阅读一下。

End

崔庆才的新书《Python3网络爬虫开发实战（第二版）》已经正式上市了！书中详细介绍了零基础用 Python 开发爬虫的各方面知识，同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容，‍同时本书已经获得 Python 之父 Guido 的推荐，目前本书正在七折促销中！

内容介绍：《Python3网络爬虫开发实战（第二版）》内容介绍

扫码购买

好文和朋友一起看~

VIP_CQCRE

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python 字典组成的数组怎么进行去重?

这是「进击的Coder」的第 766篇技术分享作者：Ckend来源：Python 实用宝典“ 阅读本文大概需要 5 分钟。 ”你知道吗？如果数组是字典组成的，直接对数组内的字典采用 set 的方式进行去重，会报错：test= [{"a": 1}, {"a": 1}, {"a": 3}, {"b": 4}]test= list(set(test))>>> TypeErro...
复制链接

扫一扫