元素可交换二维数组的去重方法

夜半罟霖

已于 2023-06-28 20:35:56 修改

阅读量1k

点赞数

分类专栏： pyhon 文章标签： python 线性代数算法

于 2022-01-01 16:34:51 首次发布

本文链接：https://blog.csdn.net/Dr_maker/article/details/121412217

版权

数组去重可交换元素单射映射 Python实现数据处理

关键词由CSDN通过智能技术生成

pyhon 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

引言

本文想要解决以下问题：存在一数组 $X=\{x_1,x_2,x_3...\}$ ，其中每一个成员都包含了两个元素即 $x_i\in R^2$ ，举个例子，二维平面的一个动点的运动轨迹就是这样一个数组， $x, y$ 坐标构成其成员。同时 $x_i$ 中的两个元素是可交换的（commutable），即 $(a,b)\Leftrightarrow (b,a)$ ，想要从X中清除可能存在的重复元素，此时若 $x_i和x_j$ 重复，那么有两种情况：

$x_i=(a,b),x_j=(a,b)$ ；
$x_i=(b,a),x_i=(a,b)$
此时就不再能用简单的 $u ni q u e ()$ 等方法来去重了，因为此类方法并未考虑可交换的情况，而是简单去除重复情形1，对重复情形2束手无策。本文考虑在附加约束： $X$ 中第一列到第二列为单射，即若含有成员 $(a, b)$ 则必不含有 $(a, c)$ 情况下的可交换二维数组去重方法。

解决方案

总体思路也比较简单，首先通过对元素进行交换，确定出数组存在哪些重复成员，然后删除其中的一个即可。

提取重复元素

使用python中的set类型，set为无序集合，有集合的所有操作性质如取交集、并集等等，将二维矩阵定义为set类型得到集合 $S_1$ ，交换X中每个元素内标量的顺序在定义为set类型得到集合 $S_2$ ，取 $S_1,S_2$ 的交集即得到了重复元素
代码：

x=np.array([[1,3],[5,9],[3,11],[2,7],[10,12],[11,3],[4,6],[6,4],[7,2],[8,11]])
s1=set(tuple([x[i,0],x[i,1]]) for i in range(x.shape[0]))
s2=set(tuple([x[i,1],x[i,0]]) for i in range(x.shape[0]))
bond=s1&s2

结果：

s1
Out[10]: {(1, 3),(2, 7),(3, 11),(4, 6),(5, 9),(6, 4),(7, 2),(8, 11),(10, 12), (11, 3)}
bond
Out[11]: {(2, 7), (3, 11), (4, 6), (6, 4), (7, 2), (11, 3)}

删除重复元素

得到重复元素之后，每个重复元素都可组成形如 $(a, b), (b, a)$ 的对子，因此我们不能直接用原始集合减去重复元素集合，否则会失去这些数据，而是应该删去对子中的任意一个以达到去重的目的。删去重复元素方法如下：
首先，我们对重复元素数据进行排序，排序的依据为数组中每个二维元素的较小值，代码及结果如下：

temp_inter=[]
for i in bond:
    temp_inter.append(i)
temp_inter=np.array(temp_inter)
temp_inter=temp_inter[temp_inter.min(axis=1).argsort()]

结果：

array([[ 2,  7],
       [ 7,  2],
       [11,  3],
       [ 3, 11],
       [ 6,  4],
       [ 4,  6]])

可以看出通过上述操作就可以很轻易的将重复的成员放到相邻的位置，此时奇偶位置的元素即构成了一组对子，通过slice操作即可取出重复元素对子中的一个，代码及结果如下：

temp_inter=temp_inter[::2,:]

结果：

array([[ 2,  7],
       [11,  3],
       [ 6,  4]])

整体代码如下:

x=np.array([[1,3],[5,9],[3,11],[2,7],[10,12],[11,3],[4,6],[6,4],[7,2],[8,11]])
s1=set(tuple([x[i,0],x[i,1]]) for i in range(x.shape[0]))
s2=set(tuple([x[i,1],x[i,0]]) for i in range(x.shape[0]))
bond=s1&s2
temp_inter=[]
for i in bond:
    temp_inter.append(i)
temp_inter=np.array(temp_inter)
temp_inter=temp_inter[temp_inter.min(axis=1).argsort()]
temp_inter=temp_inter[::2,:]
temp_inter=set(tuple([temp_inter[i,0],temp_inter[i,1]]) for i in range(temp_inter.shape[0]))
s1=s1-temp_inter

总结

值得注意的是，这种去重方法存在着局限性，隐含的条件是
如果将二维矩阵的第一列视为自变量，第二列视为因变量，则其中的映射应当是单射的，即虽然存在着 $x_i=(a,b)\Leftrightarrow x_j=(b,a)$ 这种重复元素，但不应存在 $x_i=(a,b)\Leftrightarrow x_j=(b,a),x'_i=(a,c)\Leftrightarrow x'_j=(c,a)$ ，否则使用使用上述代码就可能出现问题，举例如下：

重复元素：(2,4),(2,3),(3,2),(4,2)
排序后排布：(2,4),(2,3),(4,2),(3,2)
提取出重复元素：(2,3),(3,2)

改方案通过一定的改进也可以适用于更高维的场景，其思路是一样的。

夜半罟霖

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
元素可交换二维数组的去重方法

针对于可交换的二维坐标构成数组，给出一种去重方法。不可交换场景下的二维数组可以直接用Unique()函数处理，但可交换场景下，这些方法就无能为力了。
复制链接

扫一扫

专栏目录