3种常见的统计学方法

最近学习了3种常见的统计学方法:主成分分析法(PCA)、熵值法、层次分析法(AHP,又称专家打分法)。都可以用来计算指标(或属性)的权重,只有主成分分析法可以降维。PCA/熵值法都需要有对应的样本数据,比如10个样本,每个样本5个属性,共10*5个数据,才能应用;而层次分析法(AHP)不需要有数据,只需要专家对各个指标之间的相对重要关系进行打分,就能计算各指标权重,各指标权重就是构造的比较矩阵的特征向量(归一化后的),如果是多层,那就逐层计算,最后各层权重相乘得到最终权重。
主成分分析法:本质上就是将较多个的具有一定相关性的指标或属性简化为几个不相关的主成分,这些主成分由各指标或属性线性组合而成,组合的权重就是特征向量。能够实现浓缩凝练数据,对数据进行降维的作用。主成分分析可以同时计算主成分权重(常见用法)和各指标权重。选择特征根大的主成分,以特征根代表方差贡献大小,并计算方差贡献率。
spss和MATLAB中都可以实现主成分分析。
主成分分析的步骤如下:
(1)数据标准化处理(S),注意不是归一化,标准化的方法是xi_new=(xi-mean(x))/标准差,注意是每个指标或者属性单独标准化,因为各个指标或属性的数值意义不一样,混在一起标准化显然是不合理的。
(2)求样本的协方差矩阵(cov)

队列研究是一种观察性研究设计,在这种研究中,选定的人群根据其是否暴露于某个或某些因素被分类,并随访一段时间以确定这些暴露如何影响特定结局的发生率。对于队列研究中的数据处理统计学分析方法,以下是几种常用的方法: 1. 描述性统计 用于总结样本的基本特征以及描述事件发生的情况。这包括计算平均值、标准差、频率分布等。 2. 生存分析 当关注的是直到某一事件发生的持续时间时使用生存分析技术。常见的模型有Kaplan-Meier估计器Cox比例风险回归模型。这类分析可以评估不同水平的暴露对事件发生时间的影响。 3. 回归分析 为了量化暴露与结果之间的关系,经常采用逻辑回归或其他类型的多变量回归分析来调整潜在混杂因子的影响。线性回归适用于连续型的结果变量;而逻辑回归则常用来预测二元结果的概率。 4. 相对危险度(RR) 归因风险(AR) RR衡量了相对于未暴露群体而言,暴露组成员经历不良后果的可能性有多大增加。AR表示如果消除该暴露,则理论上可预防多少比例的新发病例数。 5. 发病密度比(IDR) IDR比较两个不同时间段内的发病率差异,有助于理解趋势变化或者干预措施的效果评价。 6. 时间序列分析 在生物信息学领域特别有用的时间序列分析能够识别长期模式及周期性的波动情况,这对于监测慢性疾病的进展非常重要。 7. 多层次建模/混合效应模型 考虑到个体层面的数据可能嵌套在学校、医院等部门机构之内,多层次建模允许同时考虑多个层级上的变异来源。 以上提到的各种方法都可以借助专业的软件包实现,例如SPSS、SAS、Stata或是开源平台如Python(pandas, statsmodels, scikit-learn)、R语言(survival package)。具体选择取决于研究人员的专业背景个人偏好等因素。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值