机器学习笔记——t分布知识点总结

最新推荐文章于 2022-03-21 15:30:42 发布

weixin_30633405

最新推荐文章于 2022-03-21 15:30:42 发布

阅读量1.6k

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/wangkundentisy/p/6539058.html

版权

本文是关于机器学习中t分布的总结，介绍了t分布作为统计学三大分布之一的特点，探讨了其与样本均值、样本方差的关系，特别是当ν为奇数时的特性。

摘要由CSDN通过智能技术生成

(原创文章，转载请注明地址:http://www.cnblogs.com/wangkundentisy/p/6539058.html )

1.t分布式统计分布的一种，同卡方分布(χ2分布)、F分布并称为三大分布。

2. t分布又叫student-t分布，常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值。（如果总体的方差已知的话，则应该用正态分布来估计总体的均值。）(所以一个前提是：t分布的样本的总体必须符合正态分布)

3.t分布一般用于小样本(样本量比较小)的情形。

4.假设X服从标准正态分布即X~N(0,1)，Y服从自由度n的卡方分布即Y~χ2（n），且X与Y是相互独立的，那么Z=X/sqrt(Y/n)的分布成为自由的为n的t分布，记为Z~t(n).

5.对于 Z~t(n)，其数学期望E(Z) = 0，n>1;方差D(Z)=n/n-2 , n>2 。

6.特征：

(1)．以0为中心，左右对称的单峰分布；

(2)．t分布是一簇曲线，其形态变化与n（即其自由度）大小有关。自由度n越小，t分布曲线越低平；自由度n越大，t分布曲线越接近标准正态分布（u分布）曲线，当自由度无限大时，t分布就成了正态分布，如图.

t(n)分布与其密度函数。

(3).随着自由度逐渐增大，t分布逐渐接近标准正态分布。

对应于每一个自由度df，就有一条t分布曲线，每条曲线都有其曲线下统计量t的分布规律，计算较复杂。学生的t分布（或也t分布），在概率统计中，在置信区间估计、显著性检验等问题的计算中发挥重要作用。

7.详述：

假设{\displaystyle X} $X$ 是呈正态分布的独立的随机变量（随机变量的期望值是{\displaystyle \mu } $\mu$ ，方差是{\displaystyle \sigma ^{2}} $\sigma^{2}$ 但未知）。令：

{\displaystyle {\overline {X}}_{n}=(X_{1}+\cdots +X_{n})/n} $\overline {X}_{n}=(X_{1}+\cdots +X_{n})/n$

为样本均值。

{\displaystyle {S_{n}}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}_{n}\right)^{2}} ${S_{n}}^{2}={\frac {1}{n-1}}\sum _{{i=1}}^{n}\left(X_{i}-\overline {X}_{n}\right)^{2}$

为样本方差。

它显示了数量

{\displaystyle Z={\frac { {\overline {X}}_{n}-\mu }{\sigma /{\sqrt {n}}}}} $Z={\frac {\overline {X}_{n}-\mu }{\sigma /{\sqrt {n}}}}$

呈正态分布并且均值和方差分别为0和1。

另一个相关数量

{\displaystyle T={\frac { {\overline {X}}_{n}-\mu }{S_{n}/{\sqrt {n}}}}} $T={\frac {\overline {X}_{n}-\mu }{S_{n}/{\sqrt {n}}}}$

T的概率密度函数是：

{\displaystyle f(t)={\frac {\Gamma ((\nu +1)/2)}{ {\sqrt {\nu \pi \,}}\,\Gamma (\nu /2)}}(1+t^{2}/\nu )^{-(\nu +1)/2}} $f(t)={\frac {\Gamma ((\nu +1)/2)}{{\sqrt {\nu \pi \,}}\,\Gamma (\nu /2)}}(1+t^{2}/\nu )^{{-(\nu +1)/2}}$

{\displaystyle \nu } $\nu$ 等于n − 1。 T的分布称为t-分布。参数{\displaystyle \nu } $\nu$ 一般被称为自由度。

{\displaystyle \Gamma } $\Gamma$ 是伽马函数。如果{\displaystyle \nu } $\nu$ 是偶数,

{\displaystyle {\frac {\Gamma ({\frac {\nu +1}{2}})}{ {\sqrt {\nu \pi }}\,\Gamma ({\frac {\nu }{2}})}}={\frac {(\nu -1)(\nu -3)\cdots 5\cdot 3}{2{\sqrt {\nu }}(\nu -2)(\nu -4)\cdots 4\cdot 2\,}}\cdot } ${\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi }}\,\Gamma ({\frac {\nu }{2}})}}={\frac {(\nu -1)(\nu -3)\cdots 5\cdot 3}{2{\sqrt {\nu }}(\nu -2)(\nu -4)\cdots 4\cdot 2\,}}\cdot$

如果{\displaystyle \nu } $\nu$ 是奇数,

{\displaystyle {\frac {\Gamma ({\frac {\nu +1}{2}})}{ {\sqrt {\nu \pi }}\,\Gamma ({\frac {\nu }{2}})}}={\frac {(\nu -1)(\nu -3)\cdots 4\cdot 2}{\pi {\sqrt {\nu }}(\nu -2)(\nu -4)\cdots 5\cdot 3\,}}\cdot \!} ${\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi }}\,\Gamma ({\frac {\nu }{2}})}}={\frac {(\nu -1)(\nu -3)\cdots 4\cdot 2}{\pi {\sqrt {\nu }}(\nu -2)(\nu -4)\cdots 5\cdot 3\,}}\cdot \!$

T的概率密度函数的形状类似于均值为0方差为1的正态分布，但更低更宽。随着自由度{\displaystyle \nu } $\nu$ 的增加，则越来越接近均值为0方差为1的正态分布。

8.t分布置信区间的推导：

假设数量A在当T呈t-分布（T的自由度为n − 1）满足

{\displaystyle \Pr(-A<T<A)=0.90\,} $\Pr(-A<T<A)=0.90\,$

这与

{\displaystyle \Pr(T<A)=0.95\,} $\Pr(T<A)=0.95\,$ 是相同的

A是这个概率分布的第95个百分点

那么

{\displaystyle \Pr \left(-A<{ {\overline {X}}_{n}-\mu \over S_{n}/{\sqrt {n}}}<A\right)=0.9,} $\Pr \left(-A<{\overline {X}_{n}-\mu \over S_{n}/{\sqrt {n}}}<A\right)=0.9,$

等价于

{\displaystyle \Pr \left({\overline {X}}_{n}-A{S_{n} \over {\sqrt {n}}}<\mu <{\overline {X}}_{n}+A{S_{n} \over {\sqrt {n}}}\right)=0.9} $\Pr \left(\overline {X}_{n}-A{S_{n} \over {\sqrt {n}}}<\mu <\overline {X}_{n}+A{S_{n} \over {\sqrt {n}}}\right)=0.9$

因此μ的90%置信区间为：

$\overline {X}_{n}\pm A{\frac {S_{n}}{{\sqrt {n}}}}$

9.分布表格的用法

下表列出了自由度为v 的t-分布的单侧和双侧区间值。例如，当样本数量n=5时，则自由度v=4，我们就可以查找表中以4开头的行。该行第5列值为2.132，对应的单侧值为95%（双侧值为90%）。这也就是说，T小于2.132的概率为95%（即单侧），记为Pr(−∞ < T < 2.132) = 0.95；同时，T值介于-2.132和2.132之间的概率为90%（即双侧），记为Pr(−2.132 < T < 2.132) = 0.9。

这是根据分布的对称性计算得到的，

Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,

因此，

Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.

注意关于表格的最后一行的值：自由度为无限大的t-分布和正态分布等价。

单侧	75%	80%	85%	90%	95%	97.5%	99%

最低0.47元/天解锁文章

weixin_30633405

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记——t分布知识点总结

(原创文章，转载请注明地址:http://www.cnblogs.com/wangkundentisy/p/6539058.html)1.t分布式统计分布的一种，同卡方分布(χ2分布)、F分布并称为三大分布。2. t分布又叫student-t分布，常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值。（如果总体的方差已知的话，则应该用正态分布来估计总体的均值。）(所以一个前提是...
复制链接

扫一扫