统计学:数据和抽样分布

数据和抽样分布
摘要由CSDN通过智能技术生成

1. 随机抽样和样本偏差

  • 样本:大型数据集的一个子集,一般用 n 表示其规模
  • 总体:大型数据集,一般用 N 表示其规模
  • 随机抽样:从总体中随机抽取元素到样本中,分为有放回和无放回
  • 分层抽样:对总体分层,并在每层中做随机抽样
  • 简单随机抽样:不经过分层的随机抽样
  • 样本偏差:样本对总体做出了错误的解释
  1. 偏差
  • 统计偏差是一些系统性的测量误差或抽样误差,是在测量或抽样过程中产生的。应严格区分由随机选取所导致的误差和由偏差所导致的误差。如果结果确实存在偏差,通常表明我们指定了不正确的统计学或机器学习模型,或是漏掉了某个重要的变量。
  1. 随机选择
  • 首先需要正确地定义可访问的总体,然后确定抽样过程,是否需要分层抽样等
  1. 样本均值与总体均值
  • 样本均值一般用 x ‾ \overline{x} x表示,总体均值一般用 μ \mu μ表示

2. 选择偏差

  • 选择偏差是指以一种可导致误导性或短暂性结论的方式,有选择性地选取数据的操作。选择偏差可能是有意而为之,也可能是无意识的
  • 趋均值回归:指对同一变量做连续测量时出现的一种现象,即在极端观测值后,会出现更趋向于中心的观测值。

3. 统

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值