python删除列表中的重复数字_从numPy数组列表中删除重复项

以下是使用tuple的一种方法:>>> import numpy as np

>>> t = [np.asarray([1, 2, 3, 4]),

np.asarray([1, 2, 3, 4]),

np.asarray([1, 1, 3, 4])]

>>> map(np.asarray, set(map(tuple, t)))

[array([1, 1, 3, 4]), array([1, 2, 3, 4])]

如果您的数组是多维的,那么首先将它们展平为1乘任意的数组,然后使用相同的思想,并在最后对它们进行整形:

^{pr2}$

示例:In [64]: t = np.asarray([[[1,2,3],[4,5,6]],

[[1,1,3],[4,5,6]],

[[1,2,3],[4,5,6]]])

In [65]: map(lambda x: from_tuple(x, t[0].shape), set(map(to_tuple, t)))

Out[65]:

[array([[1, 2, 3],

[4, 5, 6]]),

array([[1, 1, 3],

[4, 5, 6]])]

另一个选择是从您的ndarrays中创建一个pandas.DataFrame(如果需要,可以通过重塑来将它们视为行),并使用pandas内置的取消验证行。在In [34]: t

Out[34]: [array([1, 2, 3, 4]), array([1, 2, 3, 4]), array([1, 1, 3, 4])]

In [35]: pandas.DataFrame(t).drop_duplicates().values

Out[35]:

array([[1, 2, 3, 4],

[1, 1, 3, 4]])

总的来说,我认为尝试使用tostring()作为一个准散列函数不是一个好主意,因为你需要比我的方法更多的锅炉板代码,只是为了防止某些内容在某些dict中被分配了“散列”键后发生变异。在

如果考虑到数据的大小,对tuple的重塑和转换太慢了,我的感觉是这揭示了一个更根本的问题:应用程序没有很好地围绕需求进行设计(比如消除重复),并且试图将它们塞进在内存中运行的Python进程中可能不是正确的方法。在这一点上,我会停下来考虑一下,像Cassandra这样的可以在浮点(或其他)数据的大列(或多维数组)之上轻松地建立数据库索引的方法是否更明智。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值