按一个按钮会随机死人_统计概率思维--总体和样本

一、什么是总体,什么是样本

总体:研究对象的整个群体

样本:从总体中随机抽取的一部分,用于代表总体。抽取的样本数量要足够多 > 30%

样本数量:有多少个样本

样本大小:每个样本里有多少个数据

抽样分布:样本平均值的分布可视化

eg:焦点小组

随机抽样应用:抽奖

随机抽样应用

#导入random(随机数)模块

import random

'''使用random模块的randint()函数来生成随机数语法:random.randint(a, d)函数返回数字NN为a到b之间的数字(a<=N<=b),包含a和b'''

a=random.randint(0, 9)

print(a)

4

'''抽奖:生成多个随机数应用案例:从395个用户中随机抽取10个人作为中奖者'''

for i in range(10):

userId = random.randint(0, 395)

#用%s格式化字符创

print('第%s位获奖用户id是%s' %(i, userId))

第 0位获奖用户id是 355

第 1位获奖用户id是 352

第 2位获奖用户id是 98

第 3位获奖用户id是 109

第 4位获奖用户id是 293

第 5位获奖用户id是 233

第 6位获奖用户id是 118

第 7位获奖用户id是 328

第 8位获奖用户id是 315

第 9位获奖用户id是 236

import numpy as np #数组包

import pandas as pd #数据分析包

'''arange产生一个含有5*4个元素的一维数组reshape:将数组转换成5行4列的二维数组'''

df = pd.DataFrame(np.arange(5*4).reshape((5, 4)))

df

0 1 2 3 0 0 1 2 3 1 4 5 6 7 2 8 9 10 11 3 12 13 14 15 4 16 17 18 19

#随机选择一个n行的子集

sample1 = df.sample(n=2)

sample1

0 1 2 3 0 0 1 2 3 4 16 17 18 19

二、中心极限定理(样本大小>30,才能成立)

1.样本平均值约等于总体平均值

2.不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。

用途:

1.用样本来估计总体,任何一个样本的平均值将会约等于其所在总体的平均值

2.样本平均值呈正态分布

三、如何用样本估计总体

用样本估计总体标准差

标准差:衡量数据集的波动大小

标准误差:所有的"样本平均值"的标准差

标准误差 :

中心极限定理:1.什么是中心极限定理:样本平均值约等于总体平均值

2.有什么用:1)用样本来估计总体(民意调查) 2)根据总体信息,判断某个样本是否属于总体(3个标准差,概率97%)

四、如何避免偏见

1.样本偏差

以偏概全,样本太小

样本越大越可靠,样本太小往往会出现以偏概全的现象。

2.幸存者偏差(沉默的数据,死人不会说话)

指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。

多个角度全面观察问题,学会屏蔽噪音

3.概率偏见

心理概率与客观概率 的 不吻合就是概率偏见

4.信息茧房

是指人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象

eg:个性化推荐

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值