PML之百分位数、数据分布、正态数据分布

1、什么是百分位数?

示例:假设我们有一个街道上所有人口的年龄数组。

ages = [5,31,43,48,50,41,7,11,15,39,80,82,32,2,8,6,25,36,27,61,31]

什么是75.百分位数?答案是43,这意味着75%的人是43岁或以下。

90%的人口年龄是多少岁?

import numpy

ages = [5,31,43,48,50,41,7,11,15,39,80,82,32,2,8,6,25,36,27,61,31]

x = numpy.percentile(ages, 90)

print(x)

 结果:

61.0

意味着90%以下的年龄是61岁以下。

2、数据分布(Data Distribution)

创建一个包含250个介于0和5之间的随机浮点数的数组:

#数据分布
x = np.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

直方图解释

我们使用上例中的数组绘制5条柱状图。

第一栏代表数组中介于0和1之间的值。

第二栏代表1到2之间的数值。

这给了我们这个结果:

  • 52个值介于0和1之间
  • 48个值介于1和2之间
  • 49个值介于2和3之间
  • 51个值在3和4之间
  • 50个值介于4到5之间

3、正太数据分布

在概率论中,在数学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss)提出了这种数据分布的公式之后,这种数据分布被称为正态数据分布或高斯数据分布。

#正太分布(平均值为5.0,标准差为1.0)
x = np.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()

注意:由于正态分布图具有钟形的特征形状,因此也称为钟形曲线。

直方图解释

我们使用numpy.random.normal()方法中的数组,该数组具有100000个值,以绘制100个条形的直方图。

我们指定平均值为5.0,标准差为1.0。

这意味着该值应集中在5.0左右,并且很少远离平均值小于1.0。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值