漫步数理统计
会敲键盘的猩猩
研究方向为机器学习,尤其是统计学习,数学业余爱好者。
展开
-
漫步数理统计一——绪论
许多调查可以由部分进行表征,前提是基于以下事实:在基本相同的条件下,重复进行的试验或多或少是标准的程序。 例如,在医学研究中关注点集中于待使用药物的效果;或对经济学家而言,关注的可能是三种指定商品在不同时间的价格;或对农艺师而言,可能想研究化肥对谷物产量的影响。调查人员获得此类信息的唯一方法就是进行实验。每个实验都会产生一个结果,但这些试验的特点是在实验进行之前我们无法进行预测。假设我们有这样一个试翻译 2017-03-03 00:05:37 · 1650 阅读 · 5 评论 -
漫步数理统计二十——多元随机变量
两个随机变量的概念立即可以扩展到nn个随机变量,下面就是nn个随机变量空间的定义。定义1:\textbf{定义1:}考虑一个随机试验,其样本空间为C\textbf{C},随机变量XiX_i给每个元素c∈Cc\in\textbf{C}只分配一个值Xi(c)=xi,i=1,2,…,nX_i(c)=x_i,i=1,2,\ldots,n,我们说(X1,…,Xn)(X_1,\ldots,X_n) 是一个nn维翻译 2017-04-19 19:18:28 · 2884 阅读 · 0 评论 -
漫步数理统计十七——条件分布与期望
前面我们介绍了一对随机变量的联合概率分布,也说明了如何从联合分布中恢复出单个随机变量(边缘)的分布。现在我们讨论条件分布,即其他随机变量假设为特定值,求一个随机变量的分布,首先讨论离散情况。令X1,X2X_1,X_2表示离散随机变量,联合pmf为pX1,X2(x1,x2)p_{X_1,X_2}(x_1,x_2),其在支撑集S\textbf{S}上是正的,其他地方为零。令pX1(x1),pX2(x2)翻译 2017-04-16 19:06:15 · 3266 阅读 · 1 评论 -
漫步数理统计二十四——伽玛、卡方与贝塔分布
本篇博文我们讲介绍伽玛(Γ\Gamma),卡方(χ2\chi^2)与贝塔(β\beta)分布。在高等微积分中已经证明过,对于α>0\alpha>0,积分 ∫∞0yα−1e−ydy\int_0^\infty y^{\alpha-1}e^{-y}dy存在且积分值为正数,这个积分称为α\alpha的伽玛函数,写成 Γ(α)=∫∞0yα−1e−ydy\Gamma(\alpha)=\int_0^\i翻译 2017-05-02 20:15:15 · 18191 阅读 · 4 评论 -
漫步数理统计二十一——变换:随机向量
前面的文章中提到,两个连续型随机变量的两个函数联合pdf 的行列式基本上是数学分析中处理二重积分变换变换时一个定理的推论,这个定理自然可以扩展到nn重积分,考虑nn维空间S\textbf{S}的子集AA上的积分形式 ∫A⋯∫h(x1,x2,…,xn)dx1dx2⋯dxn\int_{A}\cdots\int h(x_1,x_2,\ldots,x_n)dx_1dx_2\cdots dx_n令 y翻译 2017-04-20 20:56:02 · 2012 阅读 · 0 评论 -
漫步数理统计二十五——正态分布
正态分布的动机源于中心极限定理(我们后面会介绍这个定理),这个定理说明正态分布为应用于统计推断提供了重要的一族分布,我们首先从标准正态分布开始。考虑积分 I=∫∞−∞12π‾‾‾√exp(−z22)dz(1)\begin{equation}I=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{z^2}{2}\right)dz翻译 2017-05-03 18:31:07 · 4390 阅读 · 0 评论 -
漫步数理统计二十二——二项及相关分布
之前我们介绍了均匀分布与超几何分布,这篇文章我们讨论一些其他在统计中经常使用的分布,首先从二项与相关分布开始。伯努利试验是一个随机试验,输出为两个相互独立且有穷中的一个,例如成功或失败(男或女,生或死,有缺陷或物缺陷)。当我们独立的执行几次伯努利试验使得每次成功的概率(假设为pp)都相等,那么就得到伯努利序列。令XX是与伯努利试验相关的随机变量,定义如下 X(成功)=1,X(失败)=0X(\te翻译 2017-04-21 21:17:57 · 2126 阅读 · 0 评论 -
漫步数理统计二十六——多元正态分布
本片博文介绍多元正态分布,我们以nn维随机变量为主,但给出n=2n=2时二元情况的一些实例。与上篇文章一样,我们首先介绍标准情况然后扩展到一般情况,当然这里会用到向量与矩阵符号。考虑随机向量Z=(Z1,…,Zn)′\mathbf{Z}=(Z_1,\ldots,Z_n)^\prime,其中Z1,…,ZnZ_1,\ldots,Z_n是独立同分布的N(0,1)N(0,1)随机变量,那么对z∈Rn,Z\ma翻译 2017-05-04 19:18:25 · 19030 阅读 · 6 评论 -
漫步数理统计二十三——泊松分布
回忆一下,对于mm的所有值,级数 1+m+m22!+m33!+⋯=∑x=0∞mxx!1+m+\frac{m^2}{2!}+\frac{m^3}{3!}+\cdots=\sum_{x=0}^\infty\frac{m^x}{x!}收敛到eme^m。考虑函数 p(x)={mxe−mx!0x=0,1,2,…elsewherep(x)=\begin{cases}\frac{m^xe^{-m}}翻译 2017-04-23 20:43:32 · 3926 阅读 · 0 评论 -
漫步数理统计二十七——t与F分布
本篇博文定义两个非常重要的分布,它们在一些统计推断问题中非常有用,也就是tt分布与FF分布。令WW表示满足N(0,1)N(0,1)分布的随机变量;VV表示满足χ2(r)\chi^2(r)分布的随机变量;且W,VW,V独立,那么W,VW,V的联合pdf,表示为h(w,v)h(w,v),就是WW的pdf与VV的pdf乘积,或者 h(w,v)={12π√e−w2/21Γ(r/2)2r/2vr/2−1e−翻译 2017-05-05 22:51:32 · 4679 阅读 · 1 评论 -
漫步数理统计二十八——混合分布
假设有kk个分布,它们的pdf分别为f1(x),f2(x),…,fk(x)f_1(x),f_2(x),\ldots,f_k(x),支撑为1,2,…,k\mathcal{S_1,S_2,\ldots,S_k},均值为μ1,μ2,…,μk\mu_1,\mu_2,\ldots,\mu_k,方差为σ21,σ22,…,σ2k\sigma_1^2,\sigma_2^2,\ldots,\sigma_k^2,翻译 2017-05-06 20:24:18 · 6742 阅读 · 0 评论 -
漫步数理统计二十九——函数期望
令X=(X1,…,Xn)′\mathbf{X}=(X_1,\ldots,X_n)^\prime表示某试验的随机变量,我们一般对X\mathbf{X}的函数感兴趣,表示为T=T(X)T=T(\mathbf{X})。例如如果X\mathbf{X}是一个样本,TT可能是我们感兴趣的统计量。我们先从X\mathbf{X}的线性函数开始;例如对某个特定的向量a=(a1,…,an)′\mathbf{a}=(a_翻译 2017-05-07 21:46:40 · 3695 阅读 · 0 评论 -
漫步数理统计三十二——中心极限定理
如果X1,X2,…,XnX_1,X_2,\ldots,X_n是均值为μ\mu,方差为σ2\sigma^2正态分布的随机样本,那么对任意正整数nn,随机变量 ∑n1Xi−nμσn‾‾√=n‾‾√(X¯n−μ)σ\frac{\sum_{1}^nX_i-n\mu}{\sigma\sqrt{n}}=\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}满足均值为零方差为1的正态分翻译 2017-06-18 18:49:26 · 2353 阅读 · 0 评论 -
漫步数理统计三十三——采样与统计量
本篇博文介绍一些有用的推断工具:置信区间与假设检验。在典型的统计问题中,我们对随机变量XX感兴趣,但是对其pdff(x)f(x)与pmfp(x)p(x)不知道,对此大致有两个类别:f(x)f(x)或p(x)p(x)完全未知f(x)f(x)或p(x)p(x)的形式已知,包含参数θ\theta,其中θ\theta可能是向量目前考虑第二类问题,考虑几个这样的例子:XX满足指数分布,exp(θ)\e翻译 2017-06-21 22:03:37 · 1061 阅读 · 0 评论 -
漫步数理统计三十四——顺序统计量
本篇博文将定义顺序统计量并讨论这种统计量的一些简单性质。近些年来这种统计量在统计推断中占有重要角色,因为他们的某些性质不依赖于得到随意样本的分布。X1,X2,…,XnX_1,X_2,\ldots,X_n表示连续型分布中得到的随机样本,其pdf为f(x)f(x)支撑为=(a,b),−∞≤a<b≤∞\mathcal{S}=(a,b),-\infty\leq a<b\leq\infty,Y1Y_1是Xi翻译 2017-06-22 20:56:33 · 11286 阅读 · 0 评论 -
漫步数理统计三十——依概率收敛
本篇博文我们将正式地陈述一系列随机变量靠近某个随机变量。定义1:\textbf{定义1:}{Xn}\{X_n\}是一系列随机变量,XX是定义在样本空间上的随机变量。我们说XnX_n依概率收敛到XX,如果对于ϵ>0\epsilon>0 limn→∞P[|Xn−X|≥ϵ]=0\lim_{n\to\infty}P[|X_n-X|\geq\epsilon]=0或者等价的 limn→∞P[|Xn−X|翻译 2017-06-12 22:29:57 · 29217 阅读 · 2 评论 -
漫步数理统计十六——变换
(X1,X2)(X_1,X_2)是随机向量,假设我们知道(X1,X2)(X_1,X_2)的联合分布而我们想求(X1,X2)(X_1,X_2)变换的分布,假设为Y=g(X1,X2)Y=g(X_1,X_2),我们通过得到YY的cdf即可去除。还有种方式是使用变换,考虑前面讲过的变换理论,本篇文章将其扩展到随机向量。最好的方式是分开讨论离散与连续的情况,我们首先讨论离散情况。令pX1,X2(x1,x2)p翻译 2017-04-14 22:48:52 · 895 阅读 · 0 评论 -
漫步数理统计十九——独立随机变量
令X,YX,Y表示连续型随机变量,其联合pdf为f(x1,x2)f(x_1,x_2),边缘概率密度分别为f1(x1),f2(x2)f_1(x_1),f_2(x_2),与条件pdff2|1(x2|x1)f_{2|1}(x_2|x_1)定义一样,我们可以将联合pdff(x1,x2)f(x_1,x_2)写成 f(x1,x2)=f2|1(x2|x1)f1(x1)f(x_1,x_2)=f_{2|1}(x_翻译 2017-04-18 21:54:32 · 2144 阅读 · 0 评论 -
漫步数理统计二——集合论
对象集合的概念通常还未定义,然而可以描述特定的集合使得我们考虑的对象集合没有歧义。例如前10个正整数的集合就非常清楚,34,14\frac{3}{4},14均不在这个集合中,而3在这个集合中。如果对象属于这个集合,我们就说它是集合的元素,例如如果CC表示0≤x≤10\leq x\leq 1的xx集合,那么34\frac{3}{4}就是集合CC的一个元素,34\frac{3}{4}是集合CC的一个元素翻译 2017-03-03 23:24:50 · 1138 阅读 · 0 评论 -
漫步数理统计十——连续随机变量(上)
上篇文章我们讨论了离散随机变量,在统计应用中还有一个非常重要的随机变量,那就是这里要讲的连续随机变量。定义1:\textbf{定义1:}对于某个随机变量,如果它的累加分布函数FX(x)F_X(x)对于所有的x∈Rx\in R都是连续的,那么我们称其为连续随机变量。回忆一下之前讲过的,对于任意的随机变量X,P(X=x)=FX(x)−FX(x−)X,P(X=x)=F_X(x)-F_X(x-),因此对于一翻译 2017-03-18 23:33:16 · 1379 阅读 · 0 评论 -
漫步数理统计三——概率集合函数(上)
令C\mathcal{C}表示样本空间,那么事件集应该是什么呢?我们感兴趣的是给事件、事件的补、事件的并或交分配概率,因此我们希望事件集包含这些事件的组合,这样的事件集称为C\mathcal{C}子集的σ\sigma域,定义如下:定义1:\textbf{定义1:}(σ\sigma域)令B\mathcal{B}表示C\mathcal{C}子集的集合,如果ϕ∈B\phi\in\mathcal{B}(B翻译 2017-03-05 23:10:55 · 4245 阅读 · 0 评论 -
漫步数理统计十一——连续随机变量(下)
定理1:\textbf{定理1:}令XX是连续随机变量,其pdf为fX(x)f_X(x),支撑为SX\mathcal{S}_X,令Y=g(X)Y=g(X),其中g(x)g(x)是XX支撑S\mathcal{S}上的一对一可微函数,gg的反函数表示为x=g−1(y)x=g^{-1}(y)并令dx/dy=d[g−1(y)]/dydx/dy=d[g^{-1}(y)]/dy,那么YY的pdf为 fY(y)翻译 2017-03-19 20:15:11 · 1230 阅读 · 2 评论 -
漫步数理统计四——概率集合函数(下)
例3:\textbf{例3:}C\textbf{C}被分成kk个两两不相交的子集C1,C2,…,CkC_1,C_2,\ldots,C_k,并且这kk个子集的并是C\textbf{C},那么事件C1,c2,…,CkC_1,c_2,\ldots,C_k是相互互斥且是穷举的。假设某个随机试验满足这样的特性,并且事件Ck,i=1,2,…,kC_k,i=1,2,\ldots,k概率相同,即P(Ci)=1/k,翻译 2017-03-06 23:34:19 · 1283 阅读 · 1 评论 -
漫步数理统计六——条件概率与独立(下)
例5:\textbf{例5:}瓶C1C_1中有3个红球,7个白球,瓶C2C_2中有8个红球,2个白球,这些球大小与形状都是一样的,现在假设选择瓶C1C_1的概率为P(C1)=26P(C_1)=\frac{2}{6},而选C2C_2的概率为P(C2)=46P(C_2)=\frac{4}{6}。选完瓶子后我们随机抽一个球,抽到红球的事件用CC表示,显然条件概率P(C|C1)=310,P(C|C2)=81翻译 2017-03-12 23:18:09 · 662 阅读 · 0 评论 -
漫步数理统计五——条件概率与独立(上)
对某些随机试验,我们只对样本空间C\mathcal{C}子集C1C_1 中的元素感兴趣,这就意味着样本空间只要是子集C1C_1就够了,接下来问题就是如何在C1C_1这个新样本空间上定义概率集合函数。定义在样本空间C\mathcal{C}上的概率集合函数是P(C)P(C),C1C_1是C\mathcal{C}的子集且满足P(C1)>0P(C_1)>0。我们现在考虑随机试验的结果只是C1C_1中的元素;翻译 2017-03-09 23:30:56 · 1049 阅读 · 2 评论 -
漫步数理统计七——随机变量(上)
读者可能会有这样的感受,如果样本空间C\textbf{C}中的元素不是数的话,描述起来非常麻烦,现在我们就形式化一个规则或者一组规则,根据这些规则,C\textbf{C}中的元素cc可以用数来表示。首先讨论最简单的情况,考虑掷硬币的随机试验,样本空间是C={c:其中c是T或者c是H}\textbf{C}=\{c:\text{其中}c\text{是}T\text{或者}c\text{是}H\},T,H翻译 2017-03-13 23:58:25 · 949 阅读 · 0 评论 -
漫步数理统计十二——随机变量的期望
本篇讲解期望运算,之后内容都会涉及到这种运算。定义1:\textbf{定义1:}(期望)令XX表示一个随机变量,如果XX 是连续的随机变量,pdf为f(x)f(x)且 ∫∞−∞|x|f(x)dx<∞\int_{-\infty}^{\infty}|x|f(x)dx<\infty那么XX的期望为 E(X)=∫∞−∞xf(x)dxE(X)=\int_{-\infty}^{\infty}xf(x)翻译 2017-04-10 19:17:16 · 2799 阅读 · 0 评论 -
漫步数理统计十三——特殊的期望
某些期望有特殊的名字与符号表示。首先$X$表示离散随机变量,pmf为$p(x)$,那么 $$E(X)=\sum_xxp(x)$$如果$X$的支撑为$\{a_1,a_2,a_3,\ldots\}$,那么 $$E(X)=a_1p(a_1)+a_2p(a_2)+a_3p(a_3)+\cdots$$这个乘积和是加权平均,权值$a_1,a_2,a_3,\ldots$将每个$a_i$与$p(a_i)翻译 2017-04-11 19:04:33 · 1783 阅读 · 0 评论 -
漫步数理统计九——离散随机变量
定义1:\textbf{定义1:}对于一个随机变量,如果它的空间要么有限,要么可数,那么我们称其是一个离散随机变量。对于集合D\mathcal{D},如果它的元素是可列的,那么我们称这个集合是可数的;例如在D\mathcal{D}与正整数之间存在一个一一对应的关系。例1:\textbf{例1:}考虑抛硬币产生的独立序列,每个结果要么是头(H)(H)要么是尾(T)(T)。进一步,在每次抛的过程中,我们翻译 2017-03-16 20:21:45 · 867 阅读 · 0 评论 -
漫步数理统计八——随机变量(下)
接下来考虑离散随机变量的累加分布函数。例2:\textbf{例2:}考虑例1,XX的空间是D={2,…,12}\mathcal{D}=\{2,\ldots,12\},如果x<2x<2,那么FX(x)=0F_X(x)=0,如果2≤x<32\leq x<3,那么FX(x)=1/36F_X(x)=1/36,依次递推,我们可以看到XX的cdf是一个递增的阶梯函数,如图1。给定FX(x)F_X(x),我们可以翻译 2017-03-15 22:34:51 · 638 阅读 · 0 评论 -
漫步数理统计十四——重要的不等式
本篇博文给出涉及期望的三个不等式的证明,之后我们会经常遇到这些不等式,首先介绍一个有用的结论。定理1:\textbf{定理1:}令XX表示随机变量,mm是一个正整数,假设E[Xm]E[X^m]存在,如果kk是一个正数且k≤mk\leq m,那么E[Xk]E[X^k]存在。证明:\textbf{证明:}我们证明连续情况;离散情况与之类似,只需要将积分符号换成求和符号即可,令f(x)f(x)是XX的pd翻译 2017-04-12 19:49:24 · 2501 阅读 · 0 评论 -
漫步数理统计十八——相关系数
对于两个随机变量,我们这里用X,YX,Y而不是X1,X2X_1,X_2来表示结论,另外我们不在分开讨论连续与离散的情况,统一用连续符号,但是这些性质对离散情况也满足。令X,YX,Y的联合pdf为f(x,y)f(x,y),如果u(x,y)u(x,y)是x,yx,y的函数,那么E[u(X,Y)]E[u(X,Y)]存在的话就如前面讲的那样定义。我们假设这里讨论的数学期望均存在,X,YX,Y的均值μ1,μ2翻译 2017-04-17 18:48:24 · 1921 阅读 · 0 评论 -
漫步数理统计十五——两个随机变量的分布
接下里我们讨论两个随机变量的例子。连续掷三次硬币并考虑有序数对(前两次HH的个数,三次中HH的个数),其中H,TH,T 分别表示正面与反面,那么样本空间是C={c:c=ci,i=1,2,…,8}\textbf{C}=\{c:c=c_i,i=1,2,\ldots,8\},其中c1c_1是TTTTTT,c2c_2是TTHTTH,c3c_3是THTTHT,c4c_4是HTTHTT,c5c_5是THHTHH翻译 2017-04-13 19:33:55 · 3718 阅读 · 0 评论 -
漫步数理统计三十一——依分布收敛
上篇博文我们介绍了依概率收敛的概念,利用着概念我们可以说统计量收敛到一个参数,而且在许多情况下即便不知道统计量的分布函数也能说明收敛。但是统计量有多接近估计量呢?本篇博文讲的收敛就回答了这个问题。定义1:\textbf{定义1:}(依分布收敛){Xn}\{X_n\}是一系列随机变量,XX是随机变量。FXn,FXF_{X_n},F_X分别是Xn,XX_n,X的cdf,令C(Fx)C(F_x)表示FXF翻译 2017-06-14 21:46:17 · 23882 阅读 · 1 评论