参数估计与假设检验

推断统计:研究如何利用样本数据来推断总体特征

描述统计:描述一组数据的特征

参数估计:利用样本信息估计总体特征

假设检验:利用样本信息判断对总体的假设是否成立

一.参数估计

就是对于总体指标的估计

估计:根据你拥有的信息来对现实世界进行某种判断

总体均值:真实的总体均值和预估的总体均值

样本均值:将样本中的数字相加,然后除以这些数字的总数

点估计量:总体均值的估计

1.总体均值的估计步骤

①收集样本数据

②用样本均值作为总体均值

2.总体方差的估计

方差是所有数值偏离均值的程度,样本相对于总体来说数量变少了,极端值出现在样本中的可能性就会下降。而极端值是最容易影响总体方差的因素,所以,样本方差会小于总体方差,而且样本量越少,差距越大

如果不能使用样本方差,那我们就用其他方式来估计总体方差

这个算法和样本方差的算法相似,不过除数是n-1,而不是n

这样估计得出的值要比样本方差略大,而总体方差本身就大于样本方差,所以这个公式作为总体方差的点估计量,效果更好

3.总体比例的估计

可以用样本成功的比例来作为总体成功比例的点估计量

4.样本均值的期望

①对于E(x+y) = E(x) + E(y),假设 x 前面有一个系数A,那么E(Ax) = AE(x)

②E(x) = (x1 + x2 + ... + xn)/n

③E(x) = (μ + μ + ... + μ)/n

5.样本均值的方差

X的标准差即方差的平方根,这个标准差可指出样本均值与μ的可能偏离距离,因此称为均值标准误差

样本N越大,均值标准误差越小

也就是说,样本中的个体越多,样本均值的方差越小,用总体估算样本均值越可靠

6.中心极限定理

如果X符合正态分布,那么样本均值这个随机变量也符合正态分布

如果X不符合正态分布,但只要N足够大,那样本均值也符合正态分布

在这里,样本均值不是一个数值,而是一个变量,因为从总体中我们可以选出任意多个样本来,每个样本都有一个均值,所以X在这里是一个变量,而是随机变量

7.点估计

利用样本均值得到总体均值的一个具体的估计值

8.区间估计

不要求给出总体均值的精确估计,而是指出总体均值介于数值A和数值B之间,用(A,B)表示这个区间,希望这个区间包含总体均值

用(A,B)表示区间估计的区间,我们希望这个区间包含总体均值,当然如果区间设置的太大,就没有实际意义了,我们要确定A和B的确切数值,取决于你要设置多大的概率水平,因此,(A,B)被称为置信区间

样本量越大,抽样误差越小,而误差越小,样本的代表性就越好,这时用样本估计总体就越可靠,我们把这种可靠度叫做置信水平,或者置信度

求置信区间的步骤:①求出样本均值 ②计算出抽样误差 ③求出置信区间的两个端点

在样本量相同的情况下,置信水平越高,置信区间越宽

二.假设检验

原理1:小概率事件

是指小概率事件(p <0.01或 p <0.05)在一次试验中基本上不会发生

原理2:反证法

先提出某种假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立

另外,在假设检验里,我们需要先对总体做一个假设,如果我们在对样本的研究中,有95%以上的把握证明原假设是假的,那么就可以否定原假设,在统计学里称为拒绝原假设

1.参数估计和假设检验的联系

假设检验使用的是反证法,可以理解为逆向求解问题

参数估计分为点估计和区间估计,其中区间估计可以理解为正向求解问题

它们两者可以看做同一个问题的不同表述方式

2.显著性水平

在刑事犯罪中,最害怕犯两类错误

第一类错误:把一个无辜的人判为有罪 → 取伪错误

第二类错误:放掉一个有罪的人 → 弃真错误

在假设检验中,我们认为犯第一类错误的后果比犯第二类错误的后果更严重

也就是认为:把一个无辜的人判决为有罪,比放掉一个有罪的人,后果更严重

所以,虽然我们并不能100%保证所有审查公平公正,但我们要尽量把犯“把一个无辜的人判决为有罪”错误的概率控制在一个很小的水平里

我们把这种水平称之为显著性水平α,通常α=0.05

那么,我们最终判了一个人有罪,其实就是说有95%以上的把握判定他犯了罪,同时,有低于5%的可能性误判,即我们保证“把一个无辜的人误判为有罪”的可能性小于5%

在假设检验里,我们需要先对整体做一个假设,如果我们在对样本的研究中,有95%以上的把握证明原假设是假的,那么就可以否定原假设,在统计学里称为拒绝原假设

原假设:要进行检验的断言,除非有足够的证据进行反驳,否则将接受这个断言

备择假设:原假设的对立面(如果原假设成立,备择假设就不成立)

显著性水平:就是拒绝域,用α表示,它表明你希望在观察结果的不可能程度达到多大时决绝H。α越小,为了拒绝原假设,样本结果需要达到的不可能程度越高

P值:是一个拒绝域,它是最小的显著性水平,用它来判断是否拒绝原假设

拒绝域:指的是是否拒绝原假设,假设我们设置的显著性水平也就是拒绝域为0.05,通过计算,如果P值小于0.05,就拒绝原假设;如果大于0.05,说明落在拒绝域之外,就接受原假设

3.步骤

①确定要进行检验的假设

②选择检验统计量 

③确定用于做决策的拒绝域

④求出检验统计量的P值

⑤查看样本结果是否位于拒绝域内

⑥做出决策

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值