验证中心极限定理_高级数据分析6.2：抽样与中心极限定理

最新推荐文章于 2023-06-30 12:19:28 发布

九乡河龙牙

最新推荐文章于 2023-06-30 12:19:28 发布

阅读量205

点赞数 1

文章标签：验证中心极限定理

本文链接：https://blog.csdn.net/weixin_29628637/article/details/112733478

版权

本文探讨了抽样在数据分析中的重要性，详细解释了中心极限定理及其在消除样本偏差中的作用。同时，提到了幸存者偏差、概率偏见和信息茧房现象，强调了关注全面信息以避免观念极化的必要性。

摘要由CSDN通过智能技术生成

1.抽样

随机抽样，保证所有样本被抽中的概率一样
样本要足够大

# 1.导入 random(随机数) 模块
import random

'''
使用random 模块的 randint() 函数来生成随机数
语法是：random.randint(a,b)
函数返回数字 N ，
N 为a到b之间的数字（a <= N <= b），包含 a 和 b
下面案例是生成0 ~ 9 之间的随机数，
你每次执行后都返回不同的数字（0 到 9）
'''
a=random.randint(0,9)
print(a)

# 2.案例：抽奖
''' 
range() 函数可创建一个整数列表，一般用在 for 循环中。
使用语法：range(start, stop[, step])
参数说明：
start: 计数从 start 开始。默认是从 0 开始。例如range（5）等价于range（0， 5）
start: 计数从 start 开始，但不包括 stop。例如：range（0， 5） 是[0, 1, 2, 3, 4]没有5
step：步长，默认为1。例如：range（0， 5） 等价于 range(0, 5, 1) 
-----------------------------
抽奖：生成多个随机数
应用案例：从395个用户中随机抽取10个人作为中奖者
'''
for i in range(10):
    userId=random.randint(0,395)
    #用%s格式化字符串
    print('第 %s 位获奖用户id是 %s' % (i,userId) )

# 3.pandas数据框（DataFrame）的抽样方法

#导入包
import numpy as np #数组包
import pandas as pd #数据分析包

'''
#arange产生一个含有5*4个元素的一维数组
reshape：将数组转换成5行4列的二维数组
'''
df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))
df

#随机选择一个n行的子集
sample1=df.sample(n=3)
sample1

2.中心极限定理及其用处

3.如何避免偏见

样本偏差：即小样本会以偏概全。
幸存者偏差：又叫沉默的数据，死人不会说话等。我们经常关注那些显而易见的样本，却不关注不太出现或者不出现的样本。所以我们也要多关注不太出现或者不出现的样本。
概率偏见：即心理概率与客观概率的不吻合。所以我们要学好概率统计。
信息茧房：即长期关注某方面信息而忽略了其他方面的信息，从而使得自己长期处于一个自己关注的信息牢房里面，长期会导致自己观念极化。如互联网个性化推荐，使得人们长期处于相同类型的信息里面，而不关注其他信息；这使得人们出现观念极化。如我们可以通过不使用个性化推荐的应用来避免这种观念极化。

九乡河龙牙

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
验证中心极限定理_高级数据分析6.2：抽样与中心极限定理

1.抽样随机抽样，保证所有样本被抽中的概率一样样本要足够大# 1.导入 random(随机数) 模块import random'''使用random 模块的 randint() 函数来生成随机数语法是：random.randint(a,b)函数返回数字 N ，N 为a到b之间的数字（a <= N <= b），包含 a 和 b下面案例是生成0 ~ 9 之间的随机数，你每...
复制链接

扫一扫