置信区间

最新推荐文章于 2023-12-17 19:44:22 发布

三猪

最新推荐文章于 2023-12-17 19:44:22 发布

阅读量4.2k

点赞数 2

分类专栏：数据分析文章标签：置信区间

本文链接：https://blog.csdn.net/weixin_39739342/article/details/95630628

版权

数据分析专栏收录该内容

18 篇文章 6 订阅

订阅专栏

例子

接下来先从一个例子来理解置信区间，引用《机器之心编译》的思路加上适当修改

现在有这么一个问题：假设我们随机抽取了 1000 个美国人的样本，我们发现，在 1000 人中有 63% 的人喜欢足球，我们能假设（推断）出整个美国人口的情况吗？

我们现在从上帝视角的方式来看待这个问题，如果我们知道全部美国人喜欢足球的确切比例，那当然得到了一个确定值，我们先假设有65%的美国人喜欢足球，然后我们就用python来实现这个过程。

import numpy as np

love_soccer_prop = 0.65 # 喜欢足球的人的真实比例
total_population = 325*10**6 # 设置美国总人口为3.25亿 (325M)

num_people_love_soccer = int(total_population * love_soccer_prop)   #喜欢足球的人数
num_people_dont_love_soccer = int(total_population * (1 - love_soccer_prop))    #不喜欢足球的人数

people_love_soccer = np.ones(num_people_love_soccer)  #新建一个数据全为1的数据集
people_dont_love_soccer = np.zeros(num_people_dont_love_soccer) #新建一个数据全为0的数据集
all_people = np.hstack([people_love_soccer, people_dont_love_soccer])   #合并数据

print(np.mean(all_people))  #求出平均值

当然这段代码输出的结果就是0.65，这段代码实现的就是创建了一个数组，模拟出3.5亿的美国人，然后其中有65%的美国人喜欢足球。

然后我们需要做的是随机取多组容量为1000的样本，看看得到的百分比

for i in range(10):
    sample = np.random.choice(all_people,size=1000)
    print('Sample %d:%f'%(i,np.mean(sample)))

结果如下：

我们可以看到的出来的结果会围绕着我们刚刚设置的0.65上下波动，我们现在试着取更多的组，看看出现的情况如何，将刚刚的代码段改成如下

Summary = {}
for i in range(10000):
    sample = np.random.choice(all_people,size=1000)
    ave=int(np.mean(sample)*100)
    if ave in Summary.keys():   #采用字典计数
        Summary[ave]+=1
    else:
        Summary[ave]=1

# print(Summary.keys())

values = np.zeros(101)
for i in range(101):
    values[i]=Summary.get(i,0)

#作柱状图
plt.figure(figsize=(8, 6), dpi=80)
plt.subplot(1, 1, 1)
N=101
index = np.arange(N)
p2 = plt.bar(index, values, 0.35, label="rainfall", color="#87CEFA")

plt.xlabel('%') # 设置横轴标签
plt.ylabel('Number')    # 设置纵轴标签

plt.show()

如果如下所示，我们能很明显看到围绕着0.65呈现一个类似正态分布的形状。如果我们当我们次数趋于无穷，同时精度再高一些（目前上面程序中设置的间隔是1%），我们就可以看到一个非常接近正态分布的直方图。