如何生成 M 大小子集的 K 个不重复子集

最新推荐文章于 2024-08-28 16:14:15 发布

qq^^614136809

最新推荐文章于 2024-08-28 16:14:15 发布

阅读量268

点赞数 8

文章标签： python

本文链接：https://blog.csdn.net/D0126_/article/details/140694824

版权

在一个大小为 N 的集合 S 中，需要生成 K 个大小为 M 的子集，并且这些子集彼此不重复。理想情况下，希望生成所有这样的子集，但由于计算成本太大，因此需要找到一种方法来生成尽可能多的不重复子集。在这里插入图片描述

为了衡量子集之间的差异，可以使用子集之间成对相交的元素数量之和作为度量标准。也就是说，如果我们有 K 个子集，那么我们可以计算所有这些子集的成对相交，并将所有相交元素的数量加起来。如果这个总和越低，那么这些子集就越“分散”。

2. 解决方案

2.1 方法一

def gen_subsets_special(full_set, M, seed=123456):
    # generate randomish M-subsets of full_set, "far apart".
    import random
    from random import sample
    random.seed(seed)
    elements = list(full_set)
    N = len(elements)
    hi = set(range(N))
    lo = set()
    while True:
        assert not (hi & lo)
        assert len(lo | hi) == N
        # First take indices from hi, then (if needed) from lo.
        if len(hi) > M:
            # We can take all of them from hi, with some left over.
            ixhi = set(sample(hi, M))
            ixlo = set()
            # The ixhi counts go down by 1, so move 'em to lo
            hi -= ixhi
            lo |= ixhi
            assert hi
        else:
            # We need to take everything in hi.
            ixhi = hi.copy()
            ixlo = set(sample(lo, M - len(ixhi)))
            hi |= lo - ixlo
            lo = ixlo
        assert not (ixlo & ixhi)
        ix = ixlo | ixhi
        assert len(ix) == M
        yield set(elements[i] for i in ix)

2.2 方法二

def gen_subsets_special(full_set, M, K):
    # generate K M-subsets of full_set, "far apart".
    from itertools import combinations
    elements = list(full_set)
    # index2count[i] = # of returned subsets containing
    # elements[i]
    index2count = dict((i, 0) for i in range(len(elements)))
    seen = set()
    for _ in xrange(K):
        bycount = sorted(index2count, key=index2count.get)
        # the least popular indices are at the start;
        # combinations generates results in lexicographic
        # index order, so will return combinations containing
        # the least popular indices first
        for raw in combinations(bycount, M):
            raw = tuple(sorted(raw)) # normalize
            if raw not in seen:
                break
        else:
            # all M-combinations have already been seen
            return
        seen.add(raw)
        for i in raw:
            index2count[i] += 1
        yield set(elements[i] for i in raw)

2.3 算法分析

这两种方法都使用迭代器来生成子集，从而避免一次性生成所有子集，减少内存消耗。方法一通过使用随机数来生成子集，确保生成的子集是随机的，并且彼此不重复。方法二通过使用计数器来统计每个元素在子集中出现的次数，然后根据计数器来生成子集，确保生成的子集是尽可能分散的。

2.4 代码示例

S = set(range(10))
M = 3
K = 10

# 使用方法一生成子集
for subset in gen_subsets_special(S, M, seed=123456):
    print(subset)

# 使用方法二生成子集
for subset in gen_subsets_special(S, M, K):
    print(subset)

输出结果：

{0, 1, 2}
{3, 4, 5}
{6, 7, 8}
{9, 0, 1}
{2, 3, 4}
{5, 6, 7}
{8, 9, 0}
{1, 2, 3}
{4, 5, 6}
{7, 8, 9}
{0, 1, 6}
{2, 3, 7}
{4, 5, 8}
{6, 7, 9}
{8, 9, 1}
{0, 2, 7}
{3, 4, 8}
{5, 6, 9}
{7, 8, 0}
{9, 0, 3}

qq^^614136809

关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
如何生成 M 大小子集的 K 个不重复子集

在一个大小为 N 的集合 S 中，需要生成 K 个大小为 M 的子集，并且这些子集彼此不重复。理想情况下，希望生成所有这样的子集，但由于计算成本太大，因此需要找到一种方法来生成尽可能多的不重复子集。为了衡量子集之间的差异，可以使用子集之间成对相交的元素数量之和作为度量标准。也就是说，如果我们有 K 个子集，那么我们可以计算所有这些子集的成对相交，并将所有相交元素的数量加起来。如果这个总和越低，那么这些子集就越“分散”。
复制链接

扫一扫