R统计建模

最新推荐文章于 2021-12-15 22:14:03 发布

置顶「已注销」

最新推荐文章于 2021-12-15 22:14:03 发布

阅读量460

点赞数 1

分类专栏：生物统计学 R - Biostatistics 文章标签：概率论 r语言统计学

本文链接：https://blog.csdn.net/qq_42937176/article/details/115057725

版权

R - Biostatistics 同时被 2 个专栏收录

16 篇文章 3 订阅

订阅专栏

生物统计学

11 篇文章 1 订阅

订阅专栏

文章目录

@[toc]

第 1 章概率统计常识
1.1 随机事件与概率
1.1.1 随机事件
1.1.1.1 随机事件
1.1.1.2 随机事件间的关系
1.1.1.3 随机事件的运算律

1.1.2 概率
1.1.2.2 概率的性质
1.1.2.3 古典概型
1.1.2.4 几何概型
1.1.2.5 条件概率
1.1.2.6 乘法公式、全概率公式、Bayes公式
1.1.2.7 独立事件
1.1.2.8 n重Bernoulli 试验及其概率计算

1.2 随机变量及其分布
1.2.1 随机变量的定义
1.2.2 随机变量的分布函数
1.2.3 离散型随机变量
1.2.3.1 两点分布（0-1分布）
1.2.3.2 Bernoulli 分布（二项分布）
1.2.3.3 Poisson 分布

1.2.4 连续性随机变量
1.2.4.1 均匀分布(uniform distribution)
1.2.4.2 指数分布(exponential distributin)
1.2.4.3 正态分布(Gauss/normal distribution)
1.2.4.4 随机变量的函数的分布

1.2.5 随机向量
1.2.5.1 边缘分布
1.2.5.2 二维均匀分布
1.2.5.3 二维正态分布

1.3 随机变量的数字特征
1.3.1 数学期望 $E (X)$
1.3.2 方差 $V a r (X)$
1.3.3 协方差 $C o v (X, Y)$ 和相关系数 $\rho(X,Y)$
1.3.3.1 协方差
1.3.3.2 相关系数

1.3.4 矩与协方差矩阵
1.3.4.1 矩
1.3.4.2 协方差矩阵
1.3.4.3 相关矩阵

1.4 大数定律与中心极限定理
1.4.1 大数定律
1.4.1.1 Bernoulli 大数定律
1.4.1.2 Chebyshev（切比雪夫）大数定律
1.4.1.3 Khintchin（辛钦）大数定律

1.4.2 中心极限定理
1.4.2.1 独立同分布的中心极限定理
1.4.2.2 De Moivre-Laplace（棣莫佛-拉普拉斯）中心极限定理

1.5 数理统计的基本思想
1.5.1 总体、个体、简单随机样本
1.5.2 参数空间与分布族
1.5.3 统计量与抽样分布
1.5.4 正态总体样本均值与样本方差的分布

1.6 参数估计
1.7 假设检验
1.9 线性回归与方差分析
1.10 正交试验设计

第 2 章 R语言基本用法
第 3 章数据描述性分析
3.1描述统计量
3.1.1 位置的度量
3.1.2 分散程度的度量
3.1.3 分布形状的度量

3.2 数据的分布
3.3 R软件中的绘图命令
3.4 多元数据的数据特征与相关分析
3.5 多元数据的图表示方法

第 4 章参数估计
4.1 点估计
4.2 估计量的优良性准则
4.3 区间估计

第 5 章假设检验
5.1 假设检验的基本概念
5.2 重要的参数检验
5.3 若干重要的非参数检验

第 6 章回归分析
6.1 一元线性回归
6.2 多元线性回归

第 7 章方差分析
7.1 单因素方差分析
7.2 双因素方差分析
7.3 正交试验设计与方差分析

第 8 章应用多元分析 Ⅰ
8.1 判别分析
8.2 聚类分析
8.3 主成分分析PCA
8.4 因子分析
8.5 典型相关分析

第 10 章计算机模拟

第 1 章概率统计常识

1.1 随机事件与概率

1.1.1 随机事件

1.1.1.1 随机事件

在一定条件下，所得的结果不能预先完全确定，而只能确定是多种可能结果中的一种，称这种现象为随机现象。使随机现象得以实现和对它观察的全过程称为随机试验(random experiment)，记为E。随机试验满足以下条件：

可以在相同条件下重复进行；
结果有多种可能性，并且所有可能结果事先知道；
做一次试验究竟哪个结果出现，事先不能确定。

称随机试验的所有可能结果组成的集合为样本空间(sample space)，记为 $\Omega$ 。试验的每一个可能结果称为基本事件（Elementary event）或样本点(sample point)，记为 $\omega$ 。

称 $\Omega$ 中满足一定条件的子集为随机事件(random event)，用大写字母 $\cdots$ 表示。

在每次试验中， $\Omega$ 总是发生，为必然事件(certain event)。空集 $\varnothing$ 不包含任何样本点，且每次试验中总不发生，为不可能事件(impossible event)。

1.1.1.2 随机事件间的关系

若事件A的发生必然导致事件B的发生，则称事件A包含于事件B，或事件B包含事件A，记为 $A\subset B$ ，亦称为事件的**包含(contain)**关系。

若 $\subset B$ ，且 $\subset A$ ，则称事件A和事件B等价(equivalent)，记为 $A = B$ 。

若事件A与事件B至少有一个发生，则称事件A与B的和(union)，记为 $\bigcup B$ 。

若事件A发生而事件B不发生，则称事件A与事件B的差，记为 $A - B$ 。

若事件A与B不能同时发生，则称事件A与B为互斥事件(Mutually exclusive event)或不相容事件(Incompatiable event)，记为 $\phi$ 。

若A为随机事件，称事件不发生的事件为事件A的对立事件(Opposite event)/逆事件(Complementary event)，记为 $\overline{A}$ 。事件A满足 $\bigcup \overline{A}, A \overline{A} = \phi$ 。 $\rightarrow$ 对立事件一定是互斥事件，但互斥事件不一定是对立事件。

1.1.1.3 随机事件的运算律

交换律 $\bigcup B = B \bigcup A, AB = BA$
结合律 $\bigcup B) \bigcup C = A \bigcup (B \bigcup C)， (A \bigcup B) \bigcap C = A \bigcap (B \bigcap C)$
分配律 $\bigcup B)C = (AC) \bigcup (BC)， A \bigcup (BC) = (A \bigcup B)(A \bigcup C)$
德摩根律 $\overline{A_{1} \bigcup A_{2}} = \overline{A_{1}} \bigcap \overline{A_{2}}, \overline{A_{1} \bigcap A_{2}} = \overline{A_{1}} \bigcup \overline{A_{2}}$
减法 $A\overline{B}$

1.1.2 概率

定义1.1 设随机试验E的样本空间为 $\Omega$ ， $KaTeX parse error: Undefined control sequence: \Digamma at position 1: \̲D̲i̲g̲a̲m̲m̲a̲$ 是 $\Omega$ 的子集组成的集族，满足

$KaTeX parse error: Undefined control sequence: \Digamma at position 12: \Omega \in \̲D̲i̲g̲a̲m̲m̲a̲$ ;
若 $KaTeX parse error: Undefined control sequence: \Digamma at position 7: A \in \̲D̲i̲g̲a̲m̲m̲a̲$ ，则 $KaTeX parse error: Undefined control sequence: \Digamma at position 18: …verline{A} \in \̲D̲i̲g̲a̲m̲m̲a̲$ ;（对逆运算封闭）
若$A_{i} \in \Digamma, i = 1,2,\cdots $，则$ \lim\limits_{i=1}^\infty A_i \in \Digamma$.（对可列并运算封闭）

则称 $KaTeX parse error: Undefined control sequence: \Digamma at position 1: \̲D̲i̲g̲a̲m̲m̲a̲$ 为 $\Omega$ 的一个 $\sigma -$ 代数（事件体）， $KaTeX parse error: Undefined control sequence: \Digamma at position 1: \̲D̲i̲g̲a̲m̲m̲a̲$ 中的集合称为事件，样本空间 $\Omega$ 和 $\sigma$ 代数的二元体 $KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲)$ 称为可测空间。

定义1.2 随机试验E的样本空间为 $\Omega$ ， $KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲)$ 是可测空间，对于每个事件 $KaTeX parse error: Undefined control sequence: \Digamma at position 7: A \in \̲D̲i̲g̲a̲m̲m̲a̲$ ，定义一个实数 $P (A)$ 与之对应，若函数 $P(\cdot)$ 满足条件：

对于每个事件A，均有 $\leq P(A) \leq 1$ ;
$P(\Omega)=1$
若事件 $A_1, A_2, \cdots$ 两两互斥，即对于 $\cdots, i \neq j, A_i A_j = \phi$ 均有 $P(A_1 \cup A_2 \cup \cdots) = P(A_1) + P(A_2) + \cdots$

则称 $P (A)$ 为事件 $A$ 的概率(probability)，称 $KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲, P)$ 为概率空间。

1.1.2.2 概率的性质

性质1： $P(\phi) = 0$
性质2：若事件 $A_1, A_2, \cdots, A_n$ 两两互斥，则有 $P(A_1 \cup A_2 \cup \cdots \cup A_n = P(A_1) + P(A_2) + \cdots + P(A_n)$ ，即互斥事件和的概率等于它们各自概率的和
性质3：对任一事件 $A$ ，均有 $P(\overline{A})=1-P(A)$
性质4：对两个事件 $A, B$ ，若 $\subset B$ ，则有 $\geq P(A)$
性质5：（加法公式）对任意两个事件 $A, B$ ，有 $\cup B) = P(A) + P(B) - P(AB)$

1.1.2.3 古典概型

设随机事件E的样本空间中只有有限个样本点，即 $\Omega = \{\omega_1, \omega_2, \cdots, \omega_n\}$ ，其中n为样本点总数。每个样本点 $\omega_i(i = 1, 2, \cdots, n)$ 出现是等可能的，并且每次试验有且仅有一个样本点发生，则称这类现象为古典概型(classical probability)。若事件A包含m个样本点，则事件的概率定义为 $P(A)=\frac{m}{n}=\frac{事件A包含的基本事件数}{基本事件总数}$

1.1.2.4 几何概型

当随机试验的样本空间是某一可度量的区域，并且任意一点落在度量（长度、面积和体积）相同的子区域内是等可能的，则事件A的概率定义为 $P(A)=\frac{S_A}{S}=\frac{构成事件A的子区域的度量}{样本空间的度量}$

1.1.2.5 条件概率

设A, B是两个事件，且 $P (B) > 0$ ，称 $P(A|B)=\frac{P(AB)}{P(B)}$ 为在事件B发生的条件下，事件A发生的条件概率(conditional probability)。

1.1.2.6 乘法公式、全概率公式、Bayes公式

乘法公式(multiplication formula) $P (A B) = P (A ∣ B) P (B) = P (B ∣ A) P (A)$

定义1.3如果事件组 $B_1, B_2, \cdots$ 满足

$B_1, B_2, \cdots$ 两两互斥，即 $B_i \cap B_j = \phi, i \ne j, i,j = 1, 2. \cdots$ ，且 $P(B_i) > 0, i = 1, 2, \cdots$ 。
$B_1\cup B_2\cup \cdots = \Omega$ ，则称事件组 $B_1, B_2, \cdots$ 是样本空间 $\Omega$ 的一个划分。

设 $B_1, B_2, \cdots$ 是样本空间的一个划分，A为任一事件，则 $\sum\limits_{i=1}^\infty P(B_i)P(A|B_i)$ 为全概率公式(formula of total probability)。

设 $B_1, B_2, \cdots$ 是样本空间的一个划分，则对任一事件 $A (P (A) > 0)$ ，有 $P(B_i|A)=\frac{P(B_iA)}{P(A)}=\frac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^\infty P(B_j)P(A|B_j)}, i = 1, 2, \cdots$ ，为贝叶斯公式(Bayes formula，其中 $P(B_i)(i = 1, 2, \cdots)$ 为先验概率， $P(B_i|A)(i = 1, 2, \cdots)$ 为后验概率。

1.1.2.7 独立事件

如果两事件A，B的积事件发生的概率等于这两个事件的概率的乘积，即 $P (A B) = P (A) P (B)$ ，则称事件A，B是相互独立的*(mutually independent)*。

性质若事件A， B相互独立，则 $A$ 与 $\overline{B}$ ， $\overline{A}$ 与 $B$ ， $\overline{A}$ 与 $\overline{B}$ 也相互独立。

1.1.2.8 n重Bernoulli 试验及其概率计算

如果一个随机试验只有两种可能结果 $\overline{A}$ ，并且 $P(\overline{A})=1-p=q$ ，其中 $0 < p < 1$ ，则称此试验为伯努利试验(Bernoulli trial)。Bernoulli试验独立重复进行n次，称为n重Bernoulli试验。

1.2 随机变量及其分布

1.2.1 随机变量的定义

定义1.4 设E是随机试验， $\Omega$ 是样本空间，如果对于每一个 $\omega\in \Omega$ ，都有一个确定的实数 $X(\omega)$ 与之对应，若对于任意实数 $\in R$ ，有 $\{\omega : X(\omega)<x\}\in F$ ，则称 $\Omega$ 上的单值实函数 $X(\omega)$ 为一个随机变量(random variable)。

1.2.2 随机变量的分布函数

定义1.5 设 $X$ 是一个随机变量，对任意的实数 $x$ ，令 $F(x)=P\{X \le x\}, x\in (-\infty, +\infty)$ ，则称 $F (x)$ 为随机变量 $X$ 的分布函数(distribution function)，也称为概率累积函数(probability cumulative function)。

性质：

$\le F(x) \le 1$ ;
$F (x)$ 是单调不减函数，即当 $x_1<x_2$ 时， $F(x_1)\le F(x_2)$ ;
$F(-\infty) = \lim\limits_{x\to -\infty} F(x) = 0, F(+\infty) = \lim\limits_{x\to +\infty}F(x) = 1$ ;
$F (x)$ 是右连续函数，即 $\lim\limits_{x\to x_0^+} F(x) = F(x_0), \forall x_0 \in R$ 均成立;
$P\{a<X\le b\} = F(b)-F(a)$ ;
$P\{X>a\}=1-P\{X \le a\}=1-F(a)$ 。

1.2.3 离散型随机变量

定义1.6 如果随机变量 $X$ 的全部可能取值只有有限多个或可列无穷多个，则称 $X$ 为离散型随机变量。

定义1.7 对于离散型随机变量 $X$ 可能取值为 $x_k$ 的概率为 $P\{X=x_k\}=p_k, k=1, 2, \cdots$ ，则称此为离散型随机变量 $X$ 的分布律。

性质：

$p_k \ge 0, k = 1, 2, \cdots$ ；
$\sum\limits_{k=1}^\infty p_k = 1$ 。

分布函数 $F(x)=P\{X\le x\} = \sum\limits_{x_k\le x}P\{X=x_k\} = \sum\limits_{x_k\le x}p_k$

常见的离散型分布

1.2.3.1 两点分布（0-1分布）

$P\{X=k\}=p^k(1-p)^{1-k}, k=0, 1, (0<p<1)$

$\sim B(1,p) \longmapsto F(x)=\begin{cases}0,&x<0\\1-p, & 0\le x <1\\1, & x\ge 1 \end{cases}$

1.2.3.2 Bernoulli 分布（二项分布）

$P\{X=k\}=C_n^k p^k(1-p)^{n-k}, k=0, 1, \cdots, n$

$\sim B(n,p) \longmapsto F(x)=\sum\limits_{k=0}^{\llcorner x \lrcorner}C_n^k p^k(1-p)^{n-k}$

1.2.3.3 Poisson 分布

$P\{X=k\}= \frac{\lambda^k e^{-\lambda}}{k!}, k=0, 1, 2, \cdots$

$\sim P(\lambda) \|| X \sim \pi(\lambda) \longmapsto F(x)=\sum\limits_{k=0}^{\llcorner x \lrcorner} \frac{\lambda^k e^{-\lambda}}{k!}$

定理1.1Poisson 定理：在Bernoulli 实验中，以 $p_n$ 代表事件 $A$ 在试验中出现的概率，它与试验总数 $n$ 有关，如 $np_n \to \lambda$ ，则当 $\to \infty$ 时，有 $\lim\limits_{n\to \infty}C_n^kp_n^k(1-p)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!}$ 。当 $n$ 很大且 $p_n$ 很小时，二项分布可以用Poisson分布来近似代替，即 $C_n^kp_n^k(1-p)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!}$ ，其中 $\lambda = np_n$ 。

1.2.4 连续性随机变量

定义1.8 对于随机变量 $X$ ，如果存在一个定义在 $(-\infty, +\infty)$ 上的非负函数 $f (x)$ ，使得对于任意实数 $x$ ，总有$F(x)=P{X \le x} = \int_{-\infty}^x f(t)dt, -\infty < x < +\infty $，则$ X $称为连续型随机变量，$ f(x) $为$ X$的概率密度函数(probability density function，简称概率密度。

性质：

$\int_{-\infty}^{+\infty} f(x)dx=1$ ；
对于任意的实数 $a, b (a < b)$ ，都有 $P\{a<X\le b\}=\int_{a}^bf(x)dx$ ；
若 $f (x)$ 在点 $x$ 处连续，则 $f(x)=F^\prime(x)$ ；
对任意实数 $a$ ，总有 $P\{X=a\}=0$ .

常见的连续性分布

1.2.4.1 均匀分布(uniform distribution)

$f(x)=\begin{cases}\frac{1}{b-a},&a\le x \le b\\0,& others\end{cases}$

$X\sim U[a,b] \longmapsto F(x)=\begin{cases}0,&x<a\\\frac{x-a}{b-a},&a\le x<b\\1,& x \ge b\end{cases}$

1.2.4.2 指数分布(exponential distributin)

$f(x)=\begin{cases}\lambda e^{-\lambda x},&x \ge 0\\0,& x < 0\end{cases}$

$X服从参数为\lambda的指数分布 F(x)=\begin{cases}1-e^{-\lambda x},&x \ge 0\\0,& x < 0\end{cases}$

1.2.4.3 正态分布(Gauss/normal distribution)

$f(x)=\frac{1}{\sqrt{2\pi\sigma}}exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}, -\infty<x<+\infty$

$X\sim N(\mu, \sigma^2) \longmapsto F(x)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi\sigma}}^{e^{-\frac{(t-\mu)^2}{2\sigma^2}}}dt=\Phi(\frac{x-\mu}{\sigma}), -\infty<x<+\infty$

1.2.4.4 随机变量的函数的分布

若随机变量 $X$ 具有概率密度函数 $f_X(x), -\infty<x<+\infty$ ，又设 $g (x)$ 处处可导且 $g^\prime(x)$ 不变号，则 $Y = g (X)$ 是连续型随机变量，其概率密度函数为 $f_Y(y)=\begin{cases} f_X(h(y))|h^\prime(y)|,& \alpha<y<\beta\\0,&others \end{cases}$ ，其中 $\alpha = min\{g(-\infty),g(\infty)\}, \beta = max\{g(-\infty),g(\infty)\}$ ， $x = h (y)$ 为 $y = g (x)$ 的反函数。

1.2.5 随机向量

定义1.9 如果 $X$ 和 $Y$ 是定义在同一概率空间 $KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲, P)$ 上的两个随机变量， $(X, Y)$ 称为二维随机向量(random vector)，并称 $X$ 和 $Y$ 是二维随机向量的两个分量。

定义1.10 设 $\Omega$ 为样本空间， $X_1 = X_1(\omega), X_2 = X_2(\omega), \cdots. X_n = X_n(\omega)$ 是 $\Omega$ 上的 $n$ 个随机变量，则由它们构成的 $n$ 维向量 $(X_1, X_2, \cdots, X_n)$ 称为 $n$ 维随机向量(n-dimensional random vector)，称 $X_i$ 为 $X$ 的第 $i$ 个分量。

定义1.11 设 $(X, Y)$ 是定义在 $KaTeX parse error: Undefined control sequence: \Digamma at position 10: (\Omega, \̲D̲i̲g̲a̲m̲m̲a̲, P)$ 上的随机向量，对任意的 $(x,y)\in R^2$ ，二元函数 $P\{\omega: X(\omega)\le x, y(\omega)\le y \}$ 称为 $(X, Y)$ 的联合分布函数(joint distribution function)，其中 $\{X\le x, Y\le y \}$ 表示事件 $\{X\le x\}$ 与事件 $\{Y\le y\}$ 的积事件。

分布函数性质：

对于任意固定的 $y$ ，当 $x_2>x_1$ 时， $F(x_2,y)\ge F(x_1,y)$ 。对于任意固定的 $x$ ，当 $y_2\ge y_1$ 时， $F(x,y_2)\ge F(x,y_1)$ 即 $F (x, y)$ 对每个自变量是单调不减的。
$0\le F(x,y) \le 1$ ，且对于任意固定的 $y$ ， $F(-\infty, y)=0$ 。对于任意固定的 $x$ ， $-\infty)=0, F(-\infty, -\infty)=0, F(+\infty, +\infty)=1$ 。
$F (x, y) = F (x + 0, y), F (x, y) = F (x, y + 0)$ ，即 $F (x, y)$ 关于 $x$ 右连续，也关于 $y$ 右连续。
对于任意 $x_1,y_1), (x_2,y_2), x_1<x_2, y_1<y_2$ ，下述不等式 $F(x_2,y_2) - F(x_2,y_1) - F(x_1, y_2) + F(x_1,y_1) \ge 0$ 成立。
$\Rightarrow$ 随机点 $(X, Y)$ 落在矩形域 $\{x_1<x\le x_2, y_1<y\le y_2 \}$ 内的概率为 $P\{x_1<x\le x_2, y_1<y\le y_2 \} = F(x_2,y_2) - F(x_2,y_1) - F(x_1, y_2) + F(x_1,y_1)$

定义1.12 如果二维随机向量 $(X, Y)$ 的每个分量都是离散型随机变量，则称 $(X, Y)$ 是二维离散型随机向量。

定义1.13 设二维离散型随机向量 $(X, Y)$ 所有的可能取值为 $(x_i,y_j), i=1,2,\cdots,j=1,2,\cdots$ 的概率为： $P\{X=x_i,Y=y_j\}=p_{ij}, i,j=1,2,\cdots$ ，则称其为离散型随机向量 $(X, Y)$ 的分布律(联合分布律) $\iff$ (1) $p_{ij}\ge 0, i,j=1,2,\cdots$ ; (2) $\sum\limits_i\sum\limits_jp_{ij}=1$

离散型随机向量 $(X, Y)$ 的分布函数为： $F(x,y)=\sum\limits_{x_i\le x,y_i\le y}p_{ij}, \forall x,y \in R$

定义1.14 如果对于二维随机向量 $(X, Y)$ 的分布函数 $F (x, y)$ ，存在非负的函数 $f (x, y)$ ，使对于任意的 $(x, y)$ ，有 $F(x,y)=\int_{-\infty}^{y}\int_{-\infty}^{x} f(u,v)dudv$ ，则称 $(X, Y)$ 是连续型的二维随机向量，函数 $f (x, y)$ 称为二维随机向量 $(X, Y)$ 的概率密度函数。

性质

$F(x,y)\ge 0, \forall x,y \in R$
$\int_{-\infty}^{y}\int_{-\infty}^{x} f(x,y)dxdy = F(+\infty,+\infty)=1$
在 $f (x, y)$ 的连续点处有 $\frac{\partial^2F(x,y)}{\partial x\partial y}=f(x,y)$ ;
随机点 $(X, Y)$ 落在平面区域 $G$ 内的概率为 $P\{(X,Y)\in G\}=\iint\limits_G f(x,y)dxdy$

1.2.5.1 边缘分布

$X, Y$ 的**边缘分布函数(marginal distribution)**分别是：

$F_X(x)=P\{X\le x\}=P\{X\le x, Y\le +\infty\}=F(x,+\infty)$

$F_Y(y)=P\{Y\le y\}=P\{X\le +\infty, Y\le y\}=F(+\infty, y)$

1.2.5.2 二维均匀分布

若 $(X, Y)$ 具有如下概率密度函数 $f(x,y)=\begin{cases}\frac{1}{A},&(x,y)\in D\\0,&others\end{cases}$ ，其中 $A$ 为平面区域 $D$ 的面积值，则称此二维连续型随机向量 $(X, Y)$ 在区域内服从二维均匀分布。

1.2.5.3 二维正态分布

若 $(X, Y)$ 具有如下概率密度函数

$f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \centerdot exp\big\{-\frac{1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{y-\mu_2)^2}{\sigma_2^2}] \big\},-\infty<x<+\infty,-\infty<y<+\infty$

其中 $\mu_1,\mu_2,\sigma_1>0,\sigma_2>0,\mid\rho\mid<1$ 为实数，则称此二维连续型随机向量 $(X, Y)$ 服从参数为 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$ 的二维正态分布，记作 $(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)$ ，同时称 $(X, Y)$ 为二维正态随机向量。

1.3 随机变量的数字特征

1.3.1 数学期望 $E (X)$

定义1.15 设离散型随机变量 $X$ 的分布律为 $P\{X=x_i \}=p_i, i=1,2,\cdots$ ，若级数 $\sum\limits_i \mid x_i\mid p_i$ 收敛，则称级数 $\sum\limits_i x_i p_i$ 的和为随机变量 $X$ 的数学期望(mathematical expectation)，记为 $E (X)$ ，即 $E(X)=\sum\limits_i x_i p_i$

设连续型随机变量 $X$ 的概率密度函数为 $f (x)$ ，若积分 $\int_{-\infty}^{+\infty} \mid x \mid f(x)dx$ 收敛，则称积分 $\int_{-\infty}^{+\infty} x f(x)dx$ 的值为随机变量 $X$ 的数学期望，记为 $E (X)$ ，即 $E(X)=\int_{-\infty}^{+\infty} x f(x)dx$ 。 $E (X)$ 又称为均值(mean)。

性质

若 $c$ 是常数，则 $E (c) = c$ ；
$E (a X + b Y) = a E (X) + b E (Y)$ ，其中 $a, b$ 为任意常数；
若 $X, Y$ 相互独立，则 $E (X Y) = E (X) E (Y)$ 。

1.3.2 方差 $V a r (X)$

定义1.16 设 $X$ 为随机变量，如果 $E\{[X-E(x)]^2 \}$ 存在，则称 $E\{[X-E(x)]^2 \}$ 为 $X$ 的方差(variance)，记为 $V a r (X)$ ，即 $Var(X)=E\{[X-E(x)]^2 \}$ ，并称 $\sqrt{Var(X)}$ 为的标准差(standard deviation)或均方差(root mean square)。

性质：

若 $c$ 是常数，则 $V a r (X) = c$ ；
$Var(aX+b)=a^2Var(X)$ ，其中 $a, b$ 为任意常数；
若 $X, Y$ 相互独立，则 $V a r (X + Y) = V a r (X) + V a r (Y)$ 。

$\longrightarrow Var(X)=E(X^2)-[E(X)]^2$

X ~ B(1, p), E(X)=p, Var(X)=p(1-p)

X ~ B(n, p), E(X)=np, Var(X)=np(1-p)

X ~ P( $\lambda$ ), E(X)= $\lambda$ , Var(X)= $\lambda$

X ~ U[a, b], E(X)= $\frac{a+b}{2}$ , Var(X)= $\frac{(a+b)^2}{12}$

X ~ 指数分布, E(X)= $\frac{1}{\lambda}$ , Var(X)= $\frac{1}{\lambda^2}$

X ~ N( $\mu , \sigma^2$ ), E(X)= $\mu$ , Var(X)= $\sigma^2$

1.3.3 协方差 $C o v (X, Y)$ 和相关系数 $\rho(X,Y)$

1.3.3.1 协方差

设 $X, Y$ 为两个随机变量，称 $E\{[X-E(X)][Y-E(Y)] \}$ 为 $X, Y$ 的协方差(covariance)，记为 $C o v (X, Y)$ ，即 $Cov(X,Y)=E\{[X-E(X)][Y-E(Y)] \}$

性质：

$C o v (X, Y) = C o v (Y, X)$ ；
$C o v (a X + b, c Y + d) = a c C o v (X, Y)$ ，其中 $a, b, c, d$ 为任意常数；
$Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$ ；
$C o v (X . Y) = E (X Y) - E (X) E (Y)$ ，特别地，当 $X$ 和 $Y$ 相互独立时，有 $C o v (X, Y) = 0$ ；
$\mid Cov(X,Y)\mid \le \sqrt{Var(X)}\sqrt{Var(Y)}$ ；
$C o v (X, X) = V a r (X)$ 。

1.3.3.2 相关系数

当 $V a r (X) > 0$ ， $V a r (Y) > 0$ 时，称 $\rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$ 为 $X$ 与 $Y$ 的相关系数(coefficient of correlation)，它是无量纲的量，其基本性质为：

$\mid\rho(X,Y)\mid\le1$ ； $\mid\rho(X,Y)\mid=1$ 的充要条件为 $X$ 与 $Y$ 之间有线性关系，即存在常数 $a,b(a\ne 0)$ ，使得 $P\{Y=aX+b\}=1$ 。具体地，当 $a > 0$ 时，对应 $\rho(X,Y)=1$ ；当 $a < 0$ 时，对应 $\rho(X,Y)=-1$ 。
若 $X$ 与 $Y$ 相互独立且 $V a r (X), V a r (Y)$ 存在，则 $\rho(X,Y)=0$ ；特别的，当 $X$ 与 $Y$ 均为正态分布时， $X$ 与 $Y$ 相互独立的充要条件为 $\rho(X,Y)=0$ 。

1.3.4 矩与协方差矩阵

1.3.4.1 矩

设随机变量 $X$ 有分布函数 $F (x)$ ，对任意给定的正整数 $k$ ，若 $E(\mid X\mid^k)$ 存在，则称 $\alpha_k=E(X^k)=\int_{-\infty}^{+\infty}x^kdF(x)$ 为 $X$ 的 $k$ 阶原点矩(moment about origin)。对于 $k > 1$ ，若 $E(\mid X\mid^k)$ 存在，则称 $\mu_k=E([X-E(X)]^k)=\int_{-\infty}^{+\infty})(x-E(X))^kdF(x)$ 为 $X$ 的 $k$ 阶中心矩(moment about centre)。

矩是广泛应用的一类数字特征，均值和方差分别是一阶原点矩和二阶中心矩。

设分布函数 $F (x)$ 有中心矩 $\mu_2=E(X-E(X))^2,\mu_3=E(X-E(X))^3$ ，则 $C_s=\mu_3/\mu_2^{\frac{3}{2}}$ 称为偏度系数(coefficient of skewness)。

偏度系数是一个无量纲的量,它刻划分布函数的对称性.当 $C_s>0$ 时， $F (x)$ 所表示的概率分布偏向均值的右侧，反之则偏向左侧.

设分布函数 $F (x)$ 有中心矩 $\mu_2=E(X-E(X))^2,\mu_4=E(X-E(X))^4$ ，则 $C_s=\mu_4/\mu_2^{\frac{4}{2}}-3$ 称为峰度系数(kurtosis)。

峰度系数是一个无量纲的量，它刻划不同类型的分布的集中和分散程度。

设随机变量 $X$ 有均值 $\mu$ 和方差 $\sigma$ ,则称 $X^*=(X-\mu)/\sigma$ 为标准化随机变量。

1.3.4.2 协方差矩阵

设 $X=(X_1,X_2,\cdots,X_n)，Y =(Y_1,Y_2,\cdots,Y_m)$ 为两个随机变量，则称$
Cov(X, Y)=(\sigma_{ij})_{n\times m}$为 $X$ 与 $Y$ 的协方差阵(covariance matrix)，其中 $\sigma_{ij} = Cov(X_i, Y_j),i = 1,2,\cdots,n，j = 1,2,\cdots, m$ 。
性质:

$Cov(X, Y) = Cov(Y,X)^T$ ;
$C o v (A X + b, Y) = A C o v (X, Y)$ ,其中 $A$ 是矩阵, $b$ 是向量;
$C o v (X + Y, Z) = C o v (X, Z) + C o v (Y, Z)$ ;

设 $X=(X_1,X_2,\cdots,X_n)$ 为随机变量，则称 $Cov(X,X)=(\sigma_{ij})_{n\times n}$ 为 $X$ 的方差矩阵(variance matrix)，也称为方差–协方差矩阵(variance-covariance matrix),其 $\sigma_{ij}= Cov(X_i,X_j)，i,j = 1,2,\cdots, n$ 。
性质:

$V a r (X)$ 半正定，即 $\forall a\in R^n$ ,有 $a^TVar(X)a \ge 0$ ;
$\forall a \in R^n$ ，有 $Var(a^TX) = a^T Var(X)a$ ;
$\forall A∈R^{k\times n}$ ,有 $Var(AX) = AVar(X)A^T$ ;
$V a r (X) = 0$ 的充分必要条件是: $\exist a \in R^n, c \in R^1$ ,使得 $a^TX = c$ 。

$n$ 维正态随机向量性质：

1.3.4.3 相关矩阵

设 $X=(X_1,X_2,\cdots,X_n)$ 为随机变量，则称 $Cor(X)=(\rho_{ij})_{n\times n}$ 为 $X$ 的相关矩阵(correlation matrix)，其中 $P_{ij} =Cor(X_i,X_j),i,j= 1,2,\cdots, n$

性质:

$C o r (X)$ 为对角线元素均为1的半正定对称矩阵;
设 $\sum=(\sigma_{ij})_{n\times n}$ 为方差矩阵， $diag(\sigma_{11}^{\frac{1}{2}},\sigma_{22}^{\frac{1}{2}},\cdots,\sigma_{nn}^{\frac{1}{2}})$ ，则 $D^{-1}\sum D^{-1}$ 。

1.4 大数定律与中心极限定理

1.4.1 大数定律

定义1.17 设 $X_1,X_2,\cdots,X_k,\cdots)$ 是随机变量序列且 $E(X_k)$ 存在 $(k=1,2,\cdots)$ ，令 $Y_n=\frac{1}{n}\sum\limits_{k=1}^nX_k$ ，若对于任意给定的 $\varepsilon>0$ ，有 $\lim\limits_{n \rightarrow \infty} P\{\mid Y_n-E(Y_n)\mid\ge \varepsilon\}=0$ ，或 $\lim\limits_{n \rightarrow \infty} P\{\mid Y_n-E(Y_n)\mid\ge \varepsilon\}=1$ ，则称随机变量序列 ${X_k\}$ 服从大数定律。

1.4.1.1 Bernoulli 大数定律

设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数, $p$ 是事件 $A$ 在每次试验中发生的概率，则对于任意的正数 $\varepsilon>0$ ，有 $\lim\limits_{n\rightarrow \infty}P\{\mid\frac{n_A}{n}\mid<\varepsilon \}$ 。
Bernoulli大数定律揭示了“频率稳定于概率”说法的实质。

1.4.1.2 Chebyshev（切比雪夫）大数定律

设随机变量 $X_1,X_2,\cdots,X_k,\cdots$ 相互独立，且具有相同的期望与方差: $E(X_k)= \mu,Var(X_k)=\sigma^2(k = 1,2,\cdots)$ ，则对于任意的正数 $\varepsilon>0$ ，有 $\lim\limits_{n\rightarrow \infty}P\{\mid Y_n -\mu\mid<\varepsilon = 1 \}$ 。

1.4.1.3 Khintchin（辛钦）大数定律

设随机变量 $X_1,X_2,\cdots,X_k,\cdots$ 相互独立，服从相同的分布，且其期望 $E(X_k)=\mu(k =1,2,\cdots)$ ，则对于任意的正数 $\varepsilon>0$ ,有 $\lim\limits_{n\rightarrow \infty}P\{\mid Y_n -\mu\mid<\varepsilon = 1 \}$ 。

若对随机变量序列 $X_1,X_2,\cdots,X_k,\cdots$ ,存在常数 $a$ ，使得对于任意的正数 $\varepsilon>0$ ,有 $\lim\limits_{n\rightarrow \infty}P\{\mid Y_n - a \mid<\varepsilon = 1 \}$ 或 $\lim\limits_{n\rightarrow \infty}P\{\mid Y_n - a \mid\ge\varepsilon = 0 \}$ 成立，则称 $X_n$ 依概率收敛于 $a$ ,记作 $X_n\xrightarrow{P}a$ 。

故上面的Chebyshev大数定律与Khintchin大数定律有 $Y_n=\frac{1}{n}\sum\limits_{i=1}^{n}X_i\xrightarrow{P}\mu$

定理1.2 Chebyshev不等式 设随机变量 $X$ 具有期望 $E(X)=\mu$ ，方差 $Var(X)=\sigma^2$ ，则对于任意 $\varepsilon>0$ ，有 $P\{\mid X-\mu\mid\ge\varepsilon \}\le\frac{\sigma^2}{\varepsilon^2}$ 。

1.4.2 中心极限定理

定义1.18 凡是在一定条件下，断定随机变量序列 $X_1,X_2,\cdots,X_k,\cdots$ 的部分和 $Y_n=\sum\limits_{k=1}^{n}X_k$ 的极限分布为正态分布的定理，均称为中心极限定理。

1.4.2.1 独立同分布的中心极限定理

设随机变量 $X_1,X_2,\cdots,X_k,\cdots$ 相互独立，服从同一分布，并且具有期望和方差: $E(X_k)=\mu, Var(X_k)=\sigma^2> 0, k = 1,2,\cdots$ ，则随机变量 $Y_n=\frac{\sum\limits_{k=1}^nX_k-n\mu}{\sqrt(n)\sigma}$ 的分布函数 $F_n(x)$ 收敛到标准正态分布函数，即对于任意实数 $x$ ,有 $\lim\limits_{n\rightarrow\infty} F_n(x)= \lim\limits_{n\rightarrow\infty}P\{Y_n\le x\}=\Phi(x)$ ，其中 $\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}dt$ 。
从中心极限定理可知，当 $n$ 足够大时， $Y_n$ 近似服从标准正态分布 $N (0, 1)$ 。

1.4.2.2 De Moivre-Laplace（棣莫佛-拉普拉斯）中心极限定理

设随机变量 $X_1,X_2,\cdots,X_k,\cdots$ 相互独立，并且服从参数为 $p$ 的两点分布，则对于任意实数 $c$ ,有 $\lim\limits_{n\rightarrow\infty}P\Bigg\{\frac{\sum\limits_{i=1}^nX_i-np}{\sqrt{np(1-p)}}\le x \Bigg\}=\Phi(x)$ 。
$\sum\limits_{t=1}^n X_i$ 服从二项分布 $B (n, p)$ 。从 De Moivre-Laplace 中心极限定理可知，当 $n$ 足够大时， $B (n, p)$ 近似于正态分布.它是独立同分布的中心极限定理的特殊情况。

1.5 数理统计的基本思想

1.5.1 总体、个体、简单随机样本

在数理统计中，称研究对象的全体为总体(population)，通常用一个随机变量表示总体．组成总体的每个基本单元叫个体(individuals).
从总体X中随机抽取一部分个体X1，X2，·，Xn,称X1，X2，·，Xn为取自X的容量为n的样本(sample).

若X1,X2,… ,X相互独立，且每个X;与X同分布，则称X1,X2,……… ,Xn为简单随机样本(simple random sample),简称样本.通常把n称为样本容量(samplesize).

值得注意的是，样本具有两重性，即当在一次具体地抽样后它是一组确定的数值．但在一般叙述中样本也是一组随机变量，因为抽样是随机的.今后，用X1,X2,…,Xn表示随机样本，它们取到的值记为1, 02,… , zn，称为样本观测值(sample value).

1.5.2 参数空间与分布族

1.5.3 统计量与抽样分布

定义1.19设X1,X2，,Xn是总体X的一个简单随机样本，T(Xi，X2，… ,Xn)为一个n元连续函数，且T中不含任何关于总体的未知参数，则称T(X1,X2，·…，Xn)为一个统计量(statistic)．称统计量的分布为抽样分布( samplingdistribution).

1.5.4 正态总体样本均值与样本方差的分布

1.6 参数估计

1.7 假设检验

1.9 线性回归与方差分析

1.10 正交试验设计

第 2 章 R语言基本用法

第 3 章数据描述性分析

3.1描述统计量

3.1.1 位置的度量

均值

# 均值(mean)
mean(x, trim = 0, na.rm = FALSE)

顺序统计量

sort(x, partial = NULL, na.last = NA, decreasing = FALSE, method = c("shell", "quick"), index.return = FALSE)

中位数

3.1.2 分散程度的度量

3.1.3 分布形状的度量

3.2 数据的分布

3.3 R软件中的绘图命令

3.4 多元数据的数据特征与相关分析

3.5 多元数据的图表示方法

第 4 章参数估计

4.1 点估计

4.2 估计量的优良性准则

4.3 区间估计

第 5 章假设检验

5.1 假设检验的基本概念

5.2 重要的参数检验

5.3 若干重要的非参数检验

第 6 章回归分析

6.1 一元线性回归

6.2 多元线性回归

第 7 章方差分析

7.1 单因素方差分析

7.2 双因素方差分析

7.3 正交试验设计与方差分析

第 8 章应用多元分析 Ⅰ

8.1 判别分析

8.2 聚类分析

8.3 主成分分析PCA

8.4 因子分析

8.5 典型相关分析

第 10 章计算机模拟

「已注销」

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
R统计建模

文章目录@[toc]第 1 章概率统计常识1.1 随机事件与概率1.1.1 随机事件1.1.1.1 随机事件1.1.1.2 随机事件间的关系1.1.1.3 随机事件的运算律1.1.2 概率1.1.2.2 概率的性质1.1.2.3 古典概型1.1.2.4 几何概型1.1.2.5 条件概率1.1.2.6 乘法公式、全概率公式、Bayes公式1.1.2.7 独立事件1.1.2.8 n重Bernoulli 试验及其概率计算1.2 随机变量及其分布1.2.1 随机变量的定义1.2.2 随机变量的分布函数1.2.3
复制链接

扫一扫