t检验自由度的意义_在统计中自由度是什么?

ae951f18c07c42da2a8e1c2ce2a878c2.gif

学无止境。今天看到一位博友的留言。很有感触觉得应该分享出来让更多的人看到。

6030275219302467ca4caba8e7bd9ba8.png

ae951f18c07c42da2a8e1c2ce2a878c2.gif

▓▓▓▓▓▓▓▓▓▓▓░░░░努力加载中……

  一位读者问我是否可以试着解释自由度在统计学中的意义。从那时起,我一直在思考因为请求非常谨慎,像某种野兽,我不确定我是否可以安全地把它打倒在地。

自由度不容易解释,他们在统计中的一些先进和复杂的许多不同的情况下出现。  在数学方面,他们在技术上定义为一个随机向量域的维数。

53182a4650a2d2f9b3378687a33e3d6e.png

但我们不会讲到这些,因为自由度通常不是你需要了解执行统计分析,除非你是一个研究的统计学家或有人研究统计理论。然而心中真想知道,为了冒险和好奇,下面是一些例子,提供一个统计数据的基本要点。

不同的自由度

6072aa57a32b3cbaa0109af2a06e56b1.gif

首先忘记统计数据,想象你是一个风趣的人,喜欢戴帽子,你不关心什么是自由度,你相信多样性是生活的调味品。不幸的是你有约束,你只有7个帽子。然而,你想每天戴不同的帽子。

ee017d4b6e2921425dad031b75195850.png

在第一天,你可以戴7帽子中的任何一个。第二天,你可以从剩下的6个帽子中选择,第三天你可以从剩下的5个帽子中选择,等等。第六天,在这周没有戴过的帽子中你还有2个帽子选择。但你选择你的帽子后6天,在7天你没有可以选择的帽子戴。你必须戴最后剩下的帽子。你有7 - 1 = 6天的“帽子”自由的帽子你可以改变!

这是统计中的自由度的一种理念。自由度通常被广泛地定义为“观测”(信息的片段)在估计统计参数时自由变化的数据的数量。

b6185d955bc417378c200590de5b6a1e.gif

b6185d955bc417378c200590de5b6a1e.gif

自由度:单样本t检验

b6185d955bc417378c200590de5b6a1e.gif

b6185d955bc417378c200590de5b6a1e.gif

现在想象你没有帽子,你进入数据分析。

你有一个10个值的数据集,如果你不估计,每个值可以取任意数量,对吗? 每个值是完全自由的变化。但如果你想用单样本t检验测试一个10样本总体均值,你现在有一个约束的均值估计。这个约束到底是什么? 根据定义的意思,下面的关系必须保持:数据中所有值的总和必须等于nx的平均值,n为数据集的数量值。

如果一个数据集有10个值,10个值的总和必须等于平均值x 10。如果10个值的均值为3.5(你可以选择任意数量),这种约束要求10个值之和必须等于10 x 3.5 = 35。有了这个约束,数据集的第一个值是可以自由变化的。对于任何值,所有10个数字值和对于35仍然是可能。第二个值还可以自由变化因为无论你选择何种值,它仍然允许的可能性的总和为35。

事实上,前9个值可以是任何东西,包括这2个例子:
     34, -8.3, -37, -92, -1, 0, 1, -22, 99
     0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9

但要有所有10个值的总和为35,并有一个平均值为3.5,第十个值不能改变。它必须是一个特定的数字:
     34, -8.3, -37, -92, -1, 0, 1, -22, 99  -----> 第10个值必须是61.3
     0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> 第10个值必须是30.5

因此你有10 - 1 = 9自由度,不管您使用什么样本量或者,你在使用样本平均值的最后一个值是不自由变化,你最终得到n- 1自由度(其中n是样本容量)。

另一种方式是,自由度的数量等于“观测”的数量减去所需的观测之间的关系(例如,参数估计数)。对于单样本t检验一个自由度估计均值,剩下的n- 1自由度估计可变性。自由度定义特定的t分布,用来计算t检验p值和t值。

c3e641250580b507a80177798f7b410f.png

注意,对于小样本(n),有较小的自由度(n - 1对应的单样本t检验),t分布有胖的尾巴。这是因为t分布是专门设计提供更多保守的测试结果在分析小样本(如在酿酒行业)。 随着样本容量(n)的增加,自由度数量增加,t分布接近正态分布。

自由度:卡方检验

让我们看看另一个方面,一个卡方检验的独立性是用来确定两个分类变量是否相关。对于这个测试,自由度是在两行和列的边际总数的约束条件下,可以改变的分类变量的双向表中的单元格数。所以每个“观察”在这种情况下是一个个体的频率。考虑最简单的例子: : 一个2×2表,为每个类别的两类两水平。

c982db75216844e14564e85295220165.png

不管您使用什么值的行和列边际总数。一旦设置这些值,只有一个细胞的值可以改变(这里显示的标志可能是四个个体的任何一个)。一旦你输入一个个体的数量,所有其他个体的数量是预先的行和列的总数。 他们不是自由变化。因此,卡方检验的独立性自由度为1的2×2表。

类似地3 x 2表有2自由度,因为只有两个给定的一组细胞可以不同的边际总数。

f90afd96818192c93dbe327b2e7b70f1.png

 如果你尝试用不同大小的表,最终你会找到一个通用公式。对于一个r行和c列的表,可以改变个体的数量(r1)(c1)。这就是独立的卡方检验的自由度公式!自由度定义卡方分布用来评估独立的检验。

d937e310a6f3869bf79bd107ffe8ee93.png

卡方分布是偏态分布,随着自由度的增加,它接近正态的曲线。

1

自由度:回归

 回归的背景下,经常说到自由度。回想一下,自由度一般等于观测的数量(或信息)-参数估计的数量。当您执行回归,一个参数估计在模型中的每一个术语,并且每一个都消耗了一个自由度。因此,包括多元回归模型来减少过度自由的程度可估计参数的变异性。事实上,如果不是足够的数据量方面的数量在你的模型中,甚至可能不会有足够的自由度(DF)误差项和没有假定值或f值可以计算。 你会得到输出这样的。

8436fe12f62cd02b6af644d5ba268c3f.png

  如果发生这种情况,你需要收集更多的数据(增加自由度)或删除从您的模型(减少所需的自由度数量)。尽管在一个随机向量的域界存在,自由度确实真实的、有形的影响你的数据分析。

c54b84c7e0a81805cf4b5f7feb27ccbf.gif

1eba71ee9cfb9834bc7327d22934bafc.png

  • 9
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值