1、什么是百分位数?
示例:假设我们有一个街道上所有人口的年龄数组。
ages = [5,31,43,48,50,41,7,11,15,39,80,82,32,2,8,6,25,36,27,61,31]
什么是75.百分位数?答案是43,这意味着75%的人是43岁或以下。
90%的人口年龄是多少岁?
import numpy
ages = [5,31,43,48,50,41,7,11,15,39,80,82,32,2,8,6,25,36,27,61,31]
x = numpy.percentile(ages, 90)
print(x)
结果:
61.0
意味着90%以下的年龄是61岁以下。
2、数据分布(Data Distribution)
创建一个包含250个介于0和5之间的随机浮点数的数组:
#数据分布
x = np.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
直方图解释
我们使用上例中的数组绘制5条柱状图。
第一栏代表数组中介于0和1之间的值。
第二栏代表1到2之间的数值。
这给了我们这个结果:
- 52个值介于0和1之间
- 48个值介于1和2之间
- 49个值介于2和3之间
- 51个值在3和4之间
- 50个值介于4到5之间
3、正太数据分布
在概率论中,在数学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss)提出了这种数据分布的公式之后,这种数据分布被称为正态数据分布或高斯数据分布。
#正太分布(平均值为5.0,标准差为1.0)
x = np.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()
注意:由于正态分布图具有钟形的特征形状,因此也称为钟形曲线。
直方图解释
我们使用numpy.random.normal()
方法中的数组,该数组具有100000个值,以绘制100个条形的直方图。
我们指定平均值为5.0,标准差为1.0。
这意味着该值应集中在5.0左右,并且很少远离平均值小于1.0。