医学统计学第六版笔记

最新推荐文章于 2024-07-04 15:10:43 发布

人马座α星

最新推荐文章于 2024-07-04 15:10:43 发布

阅读量1.5k

点赞数 4

分类专栏：算法分享数据挖掘文章标签：统计学

本文链接：https://blog.csdn.net/weixin_43128028/article/details/108139606

版权

算法分享同时被 2 个专栏收录

10 篇文章

订阅专栏

数据挖掘

2 篇文章

订阅专栏

笔记一直在整理，先来更一版

第一章绪论
第二章定量数据的统计描述
第三章正态分布与医学参考值范围
第四章定性数据的统计描述
第五章统计表与统计图
第六章参数估计与假设检验
第七章 t检验
第八章方差分析
第九章 $X^{2}$ 检验
第十章非参数秩和检验
第十一章线性回归与相关
第十二章多元线性回归
第十三章 logistic回归分析
第十四章生存分析
第十五章实验设计与临床试验设计

附表3：p215,F分布界值表（方差齐性检验）
p220,q界值表，用于计算q检验

第二章定量数据的统计描述

频数分布
- 频数表：统计表的一种，同时列出观察指标的可能取值区间以及其在各区间出现的频数。建立过程如下
  1. 确定组数
  2. 确定组距
  3. 确定组限
  4. 确定频数
- 直方图：以垂直条段代表频数分布的一种图形
- 频数分布表
集中趋势的统计指标
- 算数均数：简称均数，计算方法有直接法和加权法，由于均数的计算使用了所有的数据，因此适用于偏差不大的数据中
- 中位数和百分位数
- 几何均数:一般用于成指数增长的数据

$\sqrt[n]{X_{1}X_{2}X_{3}...X_{n}}$

$lg^{-1}(\frac{lgX_{1}+lgX_{2}+lgX_{3}...+lgX_{n}}{n})$

变异程度统计标准
- 极差：观察值中的最大值最小值之差
- 四分位数间距：观察值排序后，取中间50%的观察值的极差，为四分位数间距
- 方差：观察值偏离均值的程度。
- 标准差：方差的开方
- 变异系数：适用于量纲不同或均值差距较大的两组变量之间变异程度（各自偏离均值的程度）的比较

$\frac{S}{\bar{X}} * 100\%$
S，是标准差

第三章正态分布与医学参考值范围

一、正态分布

发现者：德.莫阿弗尔先发现、高斯后发现
正态分布特征：
概率密度函数

$\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{X-\mu}{\sigma})^{2}}$

概率分布函数
$\frac{1}{\sigma\sqrt{2\pi}}\int_{X}^{-\infty }e^{-\frac{1}{2}(\frac{X-\mu}{\sigma})^{2}}dx$

标准正态分布：
$\mu = 0$ 、 $\sigma = 1$
任何正态分布都可以通过以下式子转化成标准正态分布
$\frac{X-\mu}{\sigma}$
在统计中也可以直接使用均值和标准差代替
$\frac{X-\bar{X}}{S}$
这样计算原正态分布区间就可以转换到标准正态分布区间中，进而通过查表便可以得到所求区间下的面积占总区间面积的比例

二、参考值范围

参考值范围：是指“正常人”解剖、生理、生化指标等数据大多数个体值的波动范围。

注意事项：

确定同质的参考总体：1.统计总体的同质是指总体单位在某一标志的表现上都相同,即总体具有同质性；2.统计总体的异质是指总体单位在大多数其他标志的表现上又不完全相同,有大有小,具有差异性。
足够多的参照样本
控制检测误差
选择单、双侧界值
选择适当的百分数范围，一般为95%

计算方法

正态分布法
百分位数法

第四章定性数据的统计描述

一、常用相对数

率
构成比
相对比：如BMI
- 两类别例数之比
- 相对危险度RR,是流行病学前瞻性研究中常用的指标，表示在两种不同条件下，某疾病发生的概率之比，反应暴露组发病或死亡的危险是非暴露组的多少倍，说明疾病与暴露之间的关联强度。P1为暴露组的发病率，P0为非暴露组的发病率或患病率
- 比数比OR：常用于流行病学中病例-对照研究资料，表示病例组和对照组中的暴露比例和非暴露比例的比值之比，是反映疾病与暴露之间关联强度的指标。

$RR = P_{1}/P_{0}$
$\frac{P_{1}/(1-P_{1})}{P_{0}/(1-P_{0})}$

标准化率，计算步骤
- 计算原始率
- 统一构成例数
- 原始率*统一构成例数=标准结果
- 各标准结果的总和/统一构成例数的总和

二、医学中常用的相对数指标

死亡统计指标
- 死亡率
- 年龄别死亡率
- 死因别死亡率
- 死因构成
疾病统计指标
- 发病率
- 患病率
- 病死率
- 治愈率

第五章统计表与统计图

一、统计表

组成：

标题
标目
线条
数字
备注

二、统计图

统计图组成5部分：

标题
图域
标目
图例
刻度

种类

直方图
线图
箱式图：用于比较两组或多组资料的集中趋势和离散趋势，主要适用于描述偏态分布的资料。箱体长度表示四分位数间距，两端分别是P25、P75。最外面两端连线有两种表示方法：一种是表示最大值、最小值；另一种是去除离群值后的最大值、最小值，对离群值另作标记
误差条图
散点图
直条图
构成图：圆图（饼图）、百分条图

第六章参数估计与假设检验

参数估计：指由样本统计量估计总体参数，是统计推断的重要内容之一，常用的方法有点估计和区间估计。区间估计是指按预先给定的概率，计算出一个区间，使它能够包含未知的总体参数。

假设检验：使统计推断的另一项重要内容，其目的是比较总体参数之间有无差别。

一、参数估计

1、抽样误差

抽样误差：由抽样造成的样本统计量与总体参数的差异。如样本均值为 $\bar{X}$ ，往往不等于总体均值 $\mu$ 。

1）均值的标准误
对于抽样研究，抽样误差是不可避免的，那么如何来评价估计值的精确程度，就需要用到均值的标准误

理论已知总体情况下计算方法：
$\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}$
未知总体，只能通过抽样方法估计总体：
$S_{\bar{X}} = \frac{S}{\sqrt{n}}$

均值的标准误计算过程：

从总体样本反复N次随机抽取样本含量固定为n的样本，并计算每次的均值 $\bar{X_{i}}$
计算N个 $\bar{X_{i}}$ 的标准差，记为均值的标准误

根据中心极限定理，在样本含量n很大的情况下，无论原始变量分布是否为正态分布， $\bar{X_{i}}$ 的抽样分布都近似为正态分布 $N(\mu,\sigma^{2}/n)$ ，因此此时 $\sigma/\sqrt{n}$ 越小，说明评估精确度越高

2）率的标准误

样本量：通常说的先验概率，在n次独立重复试验中出现的“阳性”次数记为X，则样本率为
$\frac{X}{n}$
率的标准误
$S_{p} = \sqrt{\frac{p(1-p)}{n}}$

2、可信区间

点估计--------------区间估计

点估计是使用单一的数值直接作为总体参数的估计值，如用 $\bar{X}$ 估计相应的 $\mu$ 。该法表达简单，但未考虑抽样误差的影像，无法评价参数估计的准确程度。

区间估计是指按预先给定的该类，计算出一个区间，使它能够包含未知的总体参数。事先给定的概率称为可信度；计算得到的才是可信区间。总体均值估计的95%可信区间表示该区间包含总体均数 $\mu$ 的概率为95%

在模型中置信区间的计算方法：

以95%为例，计算第n周ILI的95%置信区间

过去第n周同期值是否符合正态分布
若符合正态分布，则使用以下公式计算第n周ILI的置信区间

$(\bar{X}-1.96\sigma_{\bar{X}},\bar{X}+1.96\sigma_{\bar{X}})$
若 $1-\alpha != 95\%$
$(\bar{X}-z_{\frac{\alpha}{2}}\sigma_{\bar{X}},\bar{X}+z_{\frac{\alpha}{2}}\sigma_{\bar{X}})$

3、总体均数的区间估计

在总体标准差 $\sigma$ 已知的情况下，可使用以上公式计算。

在 $\sigma$ 未知的情况下，可使用S代替 $\sigma$ ，但这就不符合正态分布，而是符合t分布了。

t分布，在正态分布总体中进行抽样， $(\bar{X}-\mu)/(S/\sqrt{n})$ 服从自由度为v=n-1的t分布。t分布是以0为中心的对称分布，标准正态分布是指$v= \infty $的特殊t分布
$(\bar{X}-t_{\frac{\alpha}{2},v}S_{\bar{X}},\bar{X}+t_{\frac{\alpha}{2},v}S_{\bar{X}})$

4、两总体均数差值的区间估计

例如：计算两种降压药平均降压 $\bar{X}$ 的差值比较两种药物的差别。
$S_{\bar{X_{1}}-\bar{X_{2}}}$ 是两样本均值之差的标准误， $S_{c}^{2}$ ,为两样本的合并方差。当两总体方差相同时，则
$S_{\bar{X_{1}}-\bar{X_{2}}} = \sqrt{S_{c}^{2}{(\frac{1}{n_{1}}}+\frac{1}{n_{2}})}$
$S_{c}^{2} = \frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}$

5、总体率的区间估计

小样本率的区间估计

小样本，指n<=50,可通过查附表6得到上行（95%）和下行(99%)的置信区间
注意：附表6中只列出了X<=n/2的部分，当X>n/2时，应以n-X值查表，然后用100减去查表得到的数值，即为所求的可信区间

大样本率的区间估计

大样本，指n较大，p和1-p均不太小，如np和n(1-p)均大于5时。
可利用样本率p近似服从正态分布的原理来估计总体率的1- $\alpha$ 可信区间，计算公式为

$p\pm z_{\frac{\alpha}{2}}S_{p}$
其中， $S_{p} = \sqrt{p(1-p)/n}$ 。当 $\alpha=0.05$ 时， $z_{\frac{0.05}{2}} = 1.96$

该部分公式可基于济南部分医院ILI%值计算济南总体ILI水平的可信区间，但是由于未来时间门诊总量与类流感量均未知，因此无法对预测ILI%确定置信区间。
除非分别去预测未来一周门诊量与类流感量

6、两总体率差值的区间估计

思想与总体率的区间估计

二、假设检验

1、基本原理

假设检验亦称显著性检验，是统计推断的另一重要内容，其目的是比较总体参数之间有无差别。基本思想，首先对所需要比较的总体提出一个无差别的假设，然后通过样本数据去推断是否拒绝这一假设。

2、基本步骤

1）建立假设和确定检验水平

2）选择检验方法和计算检验统计量

3）根据P值做出统计推断
P值：是假设检验下结论的主要依据，其含义是指在原假设成立的条件下，观察到的样本差别是由于机遇所致的概率。因此，P值越小越有理由拒绝原假设，认为总体之间有差别的统计学证据越充分。

第七章 t检验

一、t检验

1、单样本t检验（比较两部分一个是已知总体均值，另一个是已知样本均值）

又称单样本均数t检验，适用于样本均数 $\bar{X}$ 与总体均数 $\mu{0}$ 的比较，其目的是检验样本均数所代表的总体均数是否与已知总体均数有差别。

$\frac{\bar{X}-\mu_{0}}{S_{\bar{X}}} = \frac{\bar{X}-\mu_{0}}{S/\sqrt{n}},v=n-1$
S,为样本标准差，n为样本含量

2、配对样本均数t检验（比较两部分均为样本均值）

配对样本均数t检验简称配对t检验，又称非独立两样本均数t检验，目的是检验两相关样本均数所代表的未知总体均数是否有差别。
需将问题转化为，样本差值均数 $\bar{d}$ 与已知总体差值均数 $\mu_{d} = 0$ 比较的单样本t检验
$\frac{\bar{d}-\mu_{d}}{S_{\bar{d}}} =\frac{\bar{d}-0}{S_{\bar{d}}}= \frac{\bar{d}}{S_{d}/\sqrt{n}},v=n-1$

t与t0.05/2	P与0.05	是否拒绝
t<t0.05/2	P>0.05	接受假设H0，否则拒绝H0接受H1

3、两独立样本均数t检验

两独立样本均数t检验，又称成组t检验，
它适用于完全随机设计的两样本均数的比较，
其目的是检验两样本所来自总体的均数是否相等。

要求：两独立样本t检验要求两样本所代表的总体服从正态分布 $N(\mu_{1},\sigma^{2}_{1})$ 和 $N(\mu_{2},\sigma^{2}_{2})$ ，且两总体方差 $\sigma_{1}^{2}=\sigma_{2}^{2}$ ，即方差齐性。若方差不齐，可使用t’检验法

可将两样本均数t检验转化为 $\bar{X}_{1}-\bar{X}_{2}$ 与已知总体均数 $\mu_{1}-\mu_{2}=0$ 比较的单样本t检验，统计量计算公式如下

$\frac{|\bar{X}_{1}-\bar{X}_{2}|-0}{S_{\bar{X}_{1}-\bar{X}_{2}}} = \frac{|\bar{X}_{1}-\bar{X}_{2}|}{S_{\bar{X}_{1}-\bar{X}_{2}}}, v=n_{1}+n_{2}-2$
其中

$S_{\bar{X}_{1}-\bar{X}_{2}} = \sqrt{S_{c}^{2}(\frac{1}{n_{1}}+\frac{1}{n_{2}})}$

其中，合并方差计算公式如下
$S_{c}^{2} = \frac{\sum{X_{1}^{2}}-\frac{(\sum{X_{1}})^{2}}{n_{1}}+\sum{X_{2}^{2}}-\frac{(\sum{X_{2}})^{2}}{n_{2}}}{n_{1}+n_{2}-2}$
当两样本标准差已知时，合并方差变为
$S_{c}^{2} = \frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}$

二、方差不齐时两样本均数的t’检验

1、方差齐性检验，查附录3

方法：F检验
计算公式
$\frac{S_{1}^{2}(较大)}{S_{1}^{2}(较小)}，v_{1} = n_{1}-1,v_{2} = n_{2}-1$
判断F值与查表值的大小，确定显著性

2、t’检验

在两样本不满足方差齐性检验时，可使用t’检验

t’检验有三种方法：Satterthwaite法近似t检验；
Welch法近似t检验；Cochran&Cox法近似t检验。

步骤

首先计算t’值
$\frac{\bar{X_{1}}-\bar{X_{2}}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}$
自由度纠正或者临界值纠正

自由度纠正Satterthwaite法近似t检验，通过以下公式纠正自由度后通过附录三中的附表2确定临界值，然后将临界值与步骤1中计算出的t’值进行对比。求P值

$\frac{(\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}})^{2}}{\frac{(\frac{S_{1}^{2}}{n_{1}})^{2}}{n_{1}-1}+\frac{(\frac{S_{2}^{2}}{n_{2}})^{2}}{n_{2}-1}}$

临界值纠正Cochran&Cox法近似t检验，首先基于现在的V1、V2通过附录三的附录2确定临界值，然后使用下式纠正临界值，最后将纠正后的临界值与t’比较，计算P值。

$t'_{\alpha/2} = \frac{S_{\bar{X_{1}}}^{2}*t_{\alpha/2,v_{1}}+S_{\bar{X_{2}}}^{2}*t_{\alpha/2,v_{2}}}{S_{\bar{X_{1}}}^{2}+S_{\bar{X_{2}}}^{2}},v = n_{1}+n_{2}-2$

三、t检验中的注意事项

……

四、假设检验中两类错误

假阳性错误(I类错误)：
当H0为真时，假设检验结论拒绝H0,接受H1，称为假阳性错误。检验水准 $\alpha$ 是预先规定的允许范I类错误的概率，当 $\alpha$ =0.05时，表示在H0为真的条件下重复100次试验，理论上会有5次拒绝H0
假阴性错误(II类错误)：
当真实情况为H0不成立时，假设检验结论不拒绝H0，这类错误称为II类错误。其概率用 $\beta$ 表示。 $\beta$ 只取单侧，其值大小一般未知，对于计量资料必须在指导两总体标准差、均数的实际差值和样本含量时才能计算。 $1-\beta$ 称为把握度。
给定的检验水平 $\alpha$ 越小， $\beta$ 反而越高

第八章方差分析

对于多于两组样本均数的比较，t检验将不再适用，而应该使用方差分析（ANOVA）,又称F检验

基本思想：将全部观测值的总变异按影像因素分解为相应的若干部分变异，在此基础上，计算假设检验的统计量F值，实现对总体均数是否有差别的推断。

一、完全随机设计的方差分析

变量说明

$k$ ,为处理因素的水平数；
$X_{ij}$ ,为处理因素第i水平的第j个观测值；
$n_{i}(i=1,2,...,k)$ ,为处理因素第i水平组的观测例数；
$n$ ,总例数；
$\bar{X_{i}}$ ,为处理因素第i水平组的均数；
$\bar{X}$ ,总均数；
$S^{2}_{i}$ ,为处理因素第i水平组的方差；
$S^{2}$ ，全部观测值的方差
$SS_{总}=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(X_{ij}-\bar{X})^{2} = \sum_{i=1}^{k}n_{i}(\bar{X_{i}}-\bar{X})^{2}+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(X_{ij}-\bar{X_{i}})^{2}$ ，总变异，方差的分子部分
$SS_{组间} = \sum_{i=1}^{k}n_{i}(\bar{X_{i}}-\bar{X})^{2}$ ，组间变异，总变异中的第一部分，反映了处理因素各水平组间的差异，同时也包含了随机误差；
$SS_{组内} = \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(X_{ij}-\bar{X_{i}})^{2}$ ，组内变异，总变异的第二部分，反映了各组内样本的随机波动。
$V_{总} = n-1$ ,总变异自由度
$V_{组间} = k-1$ ,组间变异自由度
$V_{组内} = n-k$ ,组内变异自由度
平均变异：也称方差或均方，上述各部分除以对应自由度
- $MS_{组间} = \frac{SS_{组间}}{v_{组间}} = \frac{SS_{组间}}{k-1}$ ,组间均方
- $MS_{组内} = \frac{SS_{组内}}{v_{组内}} = \frac{SS_{组间}}{n-k}$ ,组内均方

方差分析统计量

$\frac{MS_{组间}}{MS_{组内}}$
F接近1，可认为均值的差异只源于随机波动；
F>1且 $F>F_{\alpha(k-1,n-k)},P<\alpha$ ,则按 $\alpha$ 水准拒绝H0,表名有随机波动之外的处理因素造成均值的差异

二、随机区组设计的方差分析

随机区组设计又称配伍组设计，其做法是先将受试对象按条件相同或相近组成m个区组（或称配伍组），每个区组中有k个受试对象，再将其随机分到k个处理组中。随机区组设计在m个区组和k个处理水平组构成mk个格子，每个格子仅一个数据Xij(i=1,2,3,…,k;j=1,2,3,…,m),其方差分析属无重复数据的两因素方差分析（ANOVA）

$SS_{总} = SS_{处理}+ SS_{区组}+SS_{误差}$
$V_{总} = V_{处理}+V_{区组}+V_{误差}$
其中各项指标计算与完全随机设计的方差分析相同。唯一增加的是
$SS_{区组} = \sum^{m}_{j=1}k(\bar{X_{j}}-\bar{X})^{2}$

三、多个样本均数的两两比较

作用：
根据方差分析结果，若拒绝H0接受H1则可以推断k组均数不全相同，然而究竟那些组不同，需要进一步对多个样本均数进行凉凉比较或多重比较。
为什么不能直接用t检验来比较：
- 两两比较次数太多
- 保证每次都不犯I类错误的概率太低
方法：Duunett-t检验、LSD-t检验、++SNK-q法++、Tukey法、Scheffe法、Bonferroni t检验、Sidak t检验

SNK-q法，也就是常说的q检验

四、多组数据的方差齐性检验

方法：Bartlett检验（适用于正态分布的）、Levene法（适用于非正态分布的）

五、其他设计类型的方差分析

内容包括++析因设计++和++重复测量设计++

析因设计：是一种多因素多水平交叉组合的实验设计方法。在医学研究中，如果涉及两个或多个处理因素，而研究者希望了解个处理因素的效应以及因素间的交互作用时，则可以采用析因设计方法。
重复测量设计：指同一受试对象的某一观察指标在不同时间点上进行多次测量的设计方法，如服用某种药物后测定不同时间点的血药浓度，接受治疗后在不同时间点上对某指标进行测量，这种设计方法在医学领域中有着广泛的应用，常用来分析不同处理在不同时间点上的变化情况。