验证中心极限定理_高级数据分析6.2:抽样与中心极限定理

本文探讨了抽样在数据分析中的重要性,详细解释了中心极限定理及其在消除样本偏差中的作用。同时,提到了幸存者偏差、概率偏见和信息茧房现象,强调了关注全面信息以避免观念极化的必要性。
摘要由CSDN通过智能技术生成

1.抽样

随机抽样,保证所有样本被抽中的概率一样
样本要足够大
# 1.导入 random(随机数) 模块
import random

'''
使用random 模块的 randint() 函数来生成随机数
语法是:random.randint(a,b)
函数返回数字 N ,
N 为a到b之间的数字(a <= N <= b),包含 a 和 b
下面案例是生成0 ~ 9 之间的随机数,
你每次执行后都返回不同的数字(0 到 9)
'''
a=random.randint(0,9)
print(a)

f5ddbdd6e4cb41115b30c11f141dcec4.png
# 2.案例:抽奖
''' 
range() 函数可创建一个整数列表,一般用在 for 循环中。
使用语法:range(start, stop[, step])
参数说明:
start: 计数从 start 开始。默认是从 0 开始。例如range(5)等价于range(0, 5)
start: 计数从 start 开始,但不包括 stop。例如:range(0, 5) 是[0, 1, 2, 3, 4]没有5
step:步长,默认为1。例如:range(0, 5) 等价于 range(0, 5, 1) 
-----------------------------
抽奖:生成多个随机数
应用案例:从395个用户中随机抽取10个人作为中奖者
'''
for i in range(10):
    userId=random.randint(0,395)
    #用%s格式化字符串
    print('第 %s 位获奖用户id是 %s' % (i,userId) )

9e1549b9fa2e436e48c6235b00dc99f9.png
# 3.pandas数据框(DataFrame)的抽样方法

#导入包
import numpy as np #数组包
import pandas as pd #数据分析包

'''
#arange产生一个含有5*4个元素的一维数组
reshape:将数组转换成5行4列的二维数组
'''
df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))
df

ec0f4574f63ba9812d6e333ef8119f2f.png
#随机选择一个n行的子集
sample1=df.sample(n=3)
sample1

79b8cd93a5511d1c87674c840d9365ae.png

2.中心极限定理及其用处

8ed0a51b815e251e45b55da732668547.png

4435363fb38ebae39bcd1f3b4f1f87a6.png

a351de9026a37c6262be25db6bb5749f.png

08f73711a6a809b79ff769198e86df15.png

47cf8df1fa4a7f6404b67389ef1fcff9.png

2ece80095d146523a5ad96bd271da5cc.png

3.如何避免偏见

  • 样本偏差:即小样本会以偏概全。
  • 幸存者偏差:又叫沉默的数据,死人不会说话等。我们经常关注那些显而易见的样本,却不 关注不太出现或者不出现的样本。所以我们也要多关注不太出现或者不出现的样本。
  • 概率偏见:即心理概率与客观概率的不吻合。所以我们要学好概率统计。
  • 信息茧房:即长期关注某方面信息而忽略了其他方面的信息,从而使得自己长期处于一个自己关注的信息牢房里面,长期会导致自己观念极化。如互联网个性化推荐,使得人们长期处于相同类型的信息里面,而不关注其他信息;这使得人们出现观念极化。如我们可以通过不使用个性化推荐的应用来避免这种观念极化。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值