numpy.random在生成大型样本时比纯python方式快了一个数量级
写这篇文章的原因是小米菲一直对于numpy中的伪随机数们傻傻分不清楚,再加上我的大数据分析工具老师让我们画出六种分布的图形(包括正态、指数、均匀;0-1、二项、泊松。)所以趁着这个机会恶补一下,顺便学学常用的统计图形怎么画。
1.函数总结
首先来看看np.random这个神奇的模块里都有什么东西~
函数 | 描述 |
---|---|
seed | 向随机数生成器传递随机状态种子 |
permutation | 返回一个序列的随机排列,或者返回一个乱序的整数范围排列 |
shuffle | 随机排列一个序列 |
rand | 从均匀分布中抽取样本 |
randint | 根据给定的由低到高的范围抽取随机整数 |
randn | 从均值0方差1的正态分布中抽取样本(MATLAB)型接口 |
binomial | 从二项分布中抽取样本 |
normal | 从正态(高斯)分布中抽取样本 |
beta | 从beta分布中抽取样本 |
chisquare | 从卡方分布中抽取样本 |
gamma | 从伽马分布中抽取样本 |
uniform | 从均匀[0,1)分布中抽取样本 |
2.均匀分布
2.1均匀分布np.random.rand()
np.random.randn(d0,d1,d2……dn)
numpy.random.rand(d0, d1, …, dn)的随机样本位于[0,
1)中:本函数可以返回一个或一组服从“0~1”均匀分布的随机样本值。
当括号内不指定数组维度时,只返回一个随机数。
import numpy as np
np.random.rand()
#输出:0.20681767259571593(仅供参考,每次输出的结果不一样)
当不断执行上面的代码时,每次输出的伪随机数是不一样的,之所以称之为伪随机数,是因为它们是由具有确定性行为的算法根据随机数生成器中的随机数种子生成的。可以自己设定seed括号内的数字来确保每次运行的结果相同。
import numpy as np
np.random.seed(10)
np.random.rand()
#输出:0.771320643266746(每次输出的结果被确定了)
指定一个数时,返回一维数组,数组长度为所指定的数字。
import numpy as np
np.random.rand(10)
#输出:
#array([0.91349005, 0.44452064, 0.83148614, 0.71111884, 0.2050335 ,0.96147339, 0.77422567, 0.14801064, 0.44593339, 0.45938472])
当然了,还可以生成二维、三维、…甚至更高维的数组。下面来看一个2×3的二维数组 ,同时,我们来比较一下1×6的数组和其有什么不同,在这里我们设置一个随机数种子10:
np.random.seed(10)
np.random.rand(2,3)
#array([[0.77132064, 0.02075195, 0.63364823], [0.74880388, 0.49850701, 0.22479665]])
np.random.seed(10)
np.random.rand(6)
#array([0.77132064, 0.02075195, 0.63364823, 0.74880388, 0.49850701,0.22479665])
看到了吗,输出结果除了维数之外没有什么不同。
2.2 均匀分布的图像绘制
import matplotlib.pyplot as plt
np.random.seed(5)
x = np.random.rand(1000000)
t = np.arange(len(x))
plt.hist(x, bins = 30, color='m', alpha=0.5, label=u'均匀分布', normed=True)
plt