初识数据分析之NumPy 笔记六 伪随机数生成

来源:《利用Python进行数据分析·第2版》

numpy.random模块对Python内置的random进行了补充,增加了一些用于高效生成多种概率分布的样本值的函数。例如,你可以用normal来得到一个标准正态分布的4×4样本数组:

In [113]: samples = np.random.normal(size=(4, 4))

In [114]: samples
Out[114]:
array([[-2.1783374 , -0.25068387,  0.64221801, -0.42189102],
       [-0.37175277,  0.84983001, -1.09479407, -1.06150801],
       [-0.31266803,  1.14889556,  0.99425273,  0.08238123],
       [-1.06663767,  0.36566354,  0.40288741,  0.61564654]])

而Python内置的random模块则只能一次生成一个样本值。从下面的测试结果中可以看出,如果需要产生大量样本值,numpy.random快了不止一个数量级: 

In [116]: from random import normalvariate

In [117]: N = 1000000

In [118]: %timeit samples = [normalvariate(0, 1) for _ in range(N)]
652 ms ± 2.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [119]: %timeit samples = np.random.normal(size=N)
24.7 ms ± 885 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

我们说这些都是伪随机数,是因为它们都是通过算法基于随机数生成器种子,在确定性的条件下生成的。你可以用NumPy的np.random.seed更改随机数生成种子:

In [122]: np.random.seed(1234)

numpy.random的数据生成函数使用了全局的随机种子。要避免全局状态,你可以使用numpy.random.RandomState,创建一个与其它隔离的随机数生成器:

In [124]: rng = np.random.RandomState(1234)

In [125]: rng.randn(10)
Out[125]:
array([ 0.47143516, -1.19097569,  1.43270697, -0.3126519 , -0.72058873,
        0.88716294,  0.85958841, -0.6365235 ,  0.01569637, -2.24268495])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值