【Python】Numpy 中的 shuffle VS permutation

最新推荐文章于 2024-07-21 10:29:59 发布

secsilm

最新推荐文章于 2024-07-21 10:29:59 发布

阅读量2.3w

点赞数 10

分类专栏： Python 数据科学机器学习文章标签： python numpy 数据科学

本文链接：https://blog.csdn.net/u010099080/article/details/73395601

版权

Python 同时被 3 个专栏收录

43 篇文章

订阅专栏

机器学习

34 篇文章

订阅专栏

数据科学

14 篇文章

订阅专栏

有时候我们会有随机打乱一个数组的需求，例如训练时随机打乱样本，我们可以使用 numpy.random.shuffle() 或者 numpy.random.permutation() 来完成。这两者非常相似，实现的功能是一样的，那么他们到底有什么区别？

本文代码及图片可以在我的GitHub 找到。

参数区别

以下 numpy.random.shuffle() 简称 shuffle，numpy.random.permutation() 简称 permutation。

shuffle 的参数只能是 array_like，而 permutation 除了 array_like 还可以是 int 类型，如果是 int 类型，那就随机打乱 numpy.arange(int)。
shuffle 返回 None，这点尤其要注意，也就是说没有返回值，而 permutation 则返回打乱后的 array。

实现区别

permutation 其实在内部实现也是调用的 shuffle，这点从 Numpy 的源码可以看出来：

def permutation(self, object x):
    '''这里都是帮助文档，我就省略了'''
    if isinstance(x, (int, long, np.integer)):
        arr = np.arange(x)
    else:
        arr = np.array(x)
    self.shuffle(arr)
    return arr

速度区别

为了测试两者的速度区别，我分别使用了 shuffle 和 permutation 对不同长度的 array 进行随机打乱并计时。

关键代码如下:

n = 10 ** np.arange(1, 10)
shuffle_elapsed = []
permutation_elapsed = []
for i in n:
    print(i)
    start = time.time()
    a = np.arange(i)
    np.random.shuffle(a)
    end = time.time()
    shuffle_elapsed.append((i, end - start))

    start = time.time()
    b = np.random.permutation(i)
    end = time.time()
    permutation_elapsed.append((i, end - start))