[数据挖掘与预测分析] 单变量统计分析思考问题

本文探讨了统计推理的概念,解释了统计推理与简单枚举归纳的区别,并阐述了总体与样本的差异。文章还深入讨论了参数与统计量、点估计与置信区间估计的区别,强调了样本大小、置信水平与置信区间宽度的关系。此外,文中还提到了抽样误差的含义和减小误差范围的方法,以及在假设检验中的应用。
摘要由CSDN通过智能技术生成

单变量统计分析思考问题

1. 解释统计推理的含义

统计推理亦称“统计概括”。由样本具有某属性推出总体具有某属性的推理。

如为了解全国住户对电视机的需要量,就根据收入的多少等情况而把住户分成若干类(若干层次),从每类中再随机抽出一定数量的住户作为样本进行调查,将所得需求量的结果,应用统计学中的计算方法而推出全国的需求量。

统计推理是由部分推出全部的推理,它的结论超出了前提所断定的范围,前提与结论间的联系是或然性的。统计推理是一种归纳推理,但不同于简单枚举归纳推理。

统计推理和简单枚举归纳两者之间的主要区别在于:

  • 简单枚举没有经过选择和试验,只是以事例的不断重复和数量的积累为依据,而统计推理是在分层抽样的基础上进行的,有一定的选择性。
  • 统计推理较之简单枚举归纳推理要严密些,结论可靠性也高些。统计推理在调查研究中起着重要的作用,在调查森林、矿藏等资源、土壤情况以及民意测验中都有广泛的应用。

使用观测到的样本统计量估计未知的总体参数

  样本统计 评估 总体参数
均值 \overline{x} \mu
标准偏差 s \sigma
比率 p \pi

从样本数据中观测到的任意统计量均可以被用于估计总体中的类似参数。


2. 总体和样本之间的区别是什么?

总体——所要考察对象的全体叫做总体.
样本——从总体中所抽取的一度部分个体叫做总体的一个样本.
总体:问根据研究目的确定的同质观察单位的全体。更确切地说,它是根据研究目的确答定的同质观察单位某种变量值的集合。
样本:回由总体中随机抽取部分观察单位的答变量值组成。样本是总体中有代表性的一部分。

  总体 样本
指代不同 包含所研究的全部个体(数据)的集合。 研究中实际观测或调查的一部分个体称为样来本。
规定不同 使样本能够正确反映总体情况,对总体要有明源确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则 样本的观察单位还要有足够的数量。又称“子样”。百按照一定的抽样规则从总体中取出的一部分个体。样本中个体的数目称为“样本容量”。
特点不同 大量性是指总体中包括的总体单位有足够多的数量。总体是由许多个体在某一相同度性质基础上结合起来的整体,个别或很少几个单位不能构成总体。 总体中每个成员称为个体。例如知考察某厂生产的灯泡的使用寿命道,该厂生产的所有灯泡的使用寿命为总体,每个灯泡的使用寿命为一个个体。

 

几个基本概念的简单解释:

  • 总体(population):包含所研究的全部个体(数据)的集合。
  • 样本(sample):从总体中抽取的一部分元素的集合。
  • 参数(parameter):用来描述总体特征的概括性数字度量。
  • 统计量(statistic):用来描述样本的概括性数字度量。
  • 置信区间(Confidence interval)以统计量的置信上限和置信下限为上下界构成的区间

在做统计的时候,我们手里有的就是样本信息,在这里要注意样本的两重性: 样本既可看成具体的数, 又可以看成随机变量 (或随机向量). 在完成抽样后,它是具体的数;在实施抽样前,它被看成随机变量. 因为在实施具体抽样之前无法预料抽样的结果, 只能预料它可能取值的范围, 故可把它看成一个随机变量,因此才有概率分布可言。

统计学的目的是试图找到可能产生我们所观测到的数据背后的概率分布,而统计推断是建立在这个分布之上的。寻找一个模型一般有两步:对一个模型(分布)的初步猜想以及对未知模型参数的估计。可见统计学的三大要素:模型、策略、算法。


3. 描述参数和统计量之间的区别。

统计学中把总体的指标统称为参数。而由样本算得的相应的总体指标称为统计量。

如研究某地成年男子的平均脉搏数(次/分),并从该地抽取1000名成年男子进行测量,所得的样本平均数即称为统计量。


4. 统计推理不应该何时被使用?

样本只是总体的一个子集,最好是总体的一个具有代表性的子集。

如果样本在总体中不具有代表性,也就是说样本特征系统性地偏离了总体特征,就不应该采用统计推理。


5. 点估计和置信区间估计之间的区别是什么?

在数据分析中使用了两种主要的统计方法:

  • 描述性统计,使用诸如均值或标准偏差等指标对样本中的数据进行汇总。描述性统计一般用来做探索性数据分析(EDA)
  • 统计推理,从随机变化的数据中得出结论(例如,观察误差,抽样变异)。其意思就是用统计学的方法来推断。统计推断(区别于贝叶斯推断,这里主要基于频率推断)主要可以分为两大类:一类是参数估计问题;另一类是假设检验问题。其中假设检验又可分为参数检验与非参数检验。

点估计和区间估计是抽样推断的两种方法。

点估计是在抽样推断中不考虑抽样误差,直接以抽样指标代替全体指标的一种推断方法。因为个别样本的抽样指标不等于全体指标,所以,用抽样指标直接代替全体指标,不可避免的会有误差。

区间估计是抽样推断中根据抽样指标和抽样误差去估计全体指标的可能范围的一种推断方法。在从抽样指标推断全体指标时,用一定概率保证误差不超出某一给定范围。 这个给定的误差范围,叫允许误差,用 \Delta 表示。如果用 \mu 表示平均误差,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值