以下是医学统计学学习过程中重要概念的简述,有利于快速了解专业概念
1、统计分析
统计描述:主要是运用一些统计指标诸如均数、标准差、率以及统计表和统计图等,对数据的数量特征及其分布规律进行客观地描述和表达
统计推断:在一定置信度或概率保证下,根据样本信息去推断总体特征
参数估计:指用样本指标推断总体相应的指标
如根据部分城市人群的原发性高血压患病率去估计整个城市的原发性高血压患病率
假设检验:指由样本之间的差异推断总体之间是否可能存在差异
如原发性高血压治疗药物在两组的疗效存在一定差别,假设检验回答这种差别是机会造成的,还是真实存在的
2、 参数检验和非参数检验区分
总体的分布形式是否可知
3、二项分布泊松分布负二项分布定义及区别
二项分布:医学领域有许多二分类记数资料都符合二项分布(传染病和遗传病除外),但应用时仍应注意考察是否满足以下应用条件:(1) 每次实验只有两类对立的结果;(2) n次事件相互独立;(3) 每次实验某类结果的发生的概率是一个常数
伯努利分布(1次试验,成败在此一举)→二项分布(n次试验,成功k次)
泊松分布:医学领域中有很多稀有疾病(如肿瘤,交通事故等)资料都符合Poisson分布,但应用中仍应注意要满足以下条件:(1) 两类结果要相互对立;(2) n次试验相互独立;(3) n应很大, P应很小
负二项分布:
几何分布(不停地试验,直到第一次成功)→Pascal分布/负二项分布(不停地试验,直到第k次成功)
4、假设检验和参数估计
I型错误(α错误):拒绝了实际上正确的零假设H0(弃真)的错误
II型错误(β错误):不拒绝实际上不成立的H0所犯的错误,检验统计量的处理不拒绝H0(存伪)的结论
假设检验的基本思想:
基本原理:在总体参数相等这一假设成立的前提下,计算出现等于及大于(或等于或小于)现有样本统计量的可能性
目的:推断样本统计量的差异是由于总体参数的不同造成的,抑或是由于抽样误差造成的
P值意义:如果p值很小,小于等于先前规定的一个界值(例如5%),结论就是拒绝无效假设“总体参数相同”,认为总体参数不同。如果p值大于事先规定的界值,就不能拒绝这个假设,尚不能认为总体参数间不同
具体步骤:
1、建立检验假设,确定检验水准
2、计算检验统计量
3、确定p值,做出统计推断
5、Pearson、Spearman、Kendall相关系数定义及区别
Pearson(又称直线相关系数):两个连续变量的相关分析
研究两个随机变量X与Y之间的相互关系:相关的方向及其密切程度
适用条件:随机变量X与Y都服从双变量正态分布, 两个定量变量之间是线性关系,都是连续数据
相关系数r大于0,为正相关,r小于0为负相关
皮尔森相关性系数受异常值的影响比较大:因为根据公式可以看到是直接是用x,y的值进行计算
Spearman(又称等级相关系数):两个连续变量的相关分析
适用条件:资料不服从正态分布、总体分布未知、存在极端值或原始数据用等级表示的资料(对于不服从正态分布的资料或有序分类变量)
“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,而不是直接是用x,y的值进行求解(因此对异常值不敏感,也不要求正态分布)
非参数统计方法,检验效能较Pearson系数低
Kendall:有序分类变量的相关分析
适用条件:计算的对象是分类变量, 使用计算而得的相关系数去检验两个随机变量的统计依赖性
当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的
无序变量,比如性别(男、女)、血型(A、B、O、AB)
有序变量,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)
通常需要求相关性系数的都是有序分类变量
Kendall相关系数与Spearman相关系数对数据条件的要求相同
Kendall相关系数是对于定类变量的统计,Pearson是对定距变量的统计,而Spearman是对定序变量的统计
在正常情况下,Kendall相关性比Spearman相关性更强健和有效。这意味着当样本量较小或存在一些异常值时,首选Kendall相关
6、卡方检验
无序分类变量的相关分析:独立性卡方检验
卡方检验:分类变量的关联性分析
适用条件:对于至少一个变量为无序分类变量的两分类变量的关联性分析,两变量均为有序分类变量的关联性分析不适用
7、直线回归和直线相关
相关系数r说明具有直线关系的两变量间相互关系的方向和密切程度[-1,1],要求x, y服从双变量正态分布,两者无主次之分
回归系数b表示x每改变一个单位所引起的y的平均该变量,表明两变量的数量依存关系,y如何依赖于x而变化
8、多变量统计方法
多重线性回归分析:要求因变量是连续性的正态分布变量,且自变量与因变量呈线性关系
多重逻辑回归分析:属于非线性回归分析,要求因变量是分类变量(二项分类或多项分类),且自变量与因变量不呈线性关系
cox比例风险回归分析:用于包含截尾数据的生存时间资料
分析步骤:1、变量赋值及数据准备
2、参数估计
3、假设检验
4、模型评价
均可分析诸多影响因素对疾病的影响,筛选疾病的危险因素或保护因素