第一部分 基本要素
第一章 研究起始:临床研究的“解剖学”与“生理学”
第二章 构建研究问题与制订研究计划
第三章 选择研究对象:确定、抽样与招募
第四章 设计测量:精确度、准确度与真实性
第五章 准备估计样本量:假设和基本原则
第六章 估计样本量与效能:应用与举例
第一章 研究起始:临床研究的“解剖学”与“生理学”
一、研究的解剖学:由什么组成
1.研究问题(research question)
FINER(可行性feasible、趣味性interesting、创新型novel、符合伦理ethical、相关性relevant)
2. 研究背景和意义(background and significance)
研究课题的已知内容、研究问题为什么重要、研究可能得到的答案、已有的研究、前期研究的问题和不确定性以及如何解决、研究意义。
3.研究设计(design)
- 研究设计
- 观察性研究(被动)
- 队列研究:对一组研究对象进行观测随访
- 前瞻性研究:future
- 回顾性研究:past
- 横断面研究:在一个时间点进行研究
- 病例对照研究
- 队列研究:对一组研究对象进行观测随访
- 临床研究(主动)
- 随机化盲法试验:盲法可能是对照组给安慰剂的那种情况
- 观察性研究(被动)
研究的常见流程:描述性研究(观察性研究)→分析性研究(因果关系推断)→临床试验
4.研究对象(study subjects)
入选排除标准、如何获得足够研究对象
5.变量(variables)
预测变量(自变量)、结局变量(因变量)、混杂变量
混杂变量:与预测变量有关,且会影响研究结果解释的其他预测变量,可以用随机化的方法减少混杂变量的影响。如对于预测变量鱼肉摄入来说,收入水平可能是混杂变量,收入水平会影响鱼肉摄入的质量。
6.统计学内容(statistical issues)
假设、样本量的确定、分析方法
二、研究的生理学:如何起作用
研究解释的推断:
(1)内部真实性:研究结论与该研究真实情况的一致性
(2)外部真实性:研究结论能够恰当应用到该研究之外的人群和事件的程度。
研究的设计与实施:
拟定研究计划以提高外部真实性→研究实施以获得高度的内部真实性
1.研究设计(designing the study)
2.研究实施(implementing the study)
实际实施过程中的问题我没有想到的一点:如取得联系并且愿意参加的研究对象与那些无法联系或者不感兴趣的研究对象之间鱼油使用率可能并不相同。
3.因果推断(causal inference)
4.研究误差(the errors of research)
5.研究设计(designing the study)
研究计划
研究大纲、研究方案(对大纲的拓展)、操作手册
权衡
内部真实性、外部真实性与可行性的权衡
第二章 构建研究问题与制订研究计划
研究问题的来源
好的研究问题的特征(FINER)
可行性:研究对象的数量有要求
创新性:使用美国NIH基金在线查询网站(RePORT,http://report.nih.gov/categorical_spending.aspx)检索相关领域以获得资助的项目的摘要,可以确定一个研究是否具有创新性
制订研究问题与研究计划
第三章 选择研究对象:确定、抽样与招募
基本术语与概念
总体与样本
目标总体:研究结果可外推到世界范围内的人群集合,如患有哮喘的青少年
可获得总体
预期研究样本:可获得总体中研究者希望入选研究的子集
实际研究样本:实际参与研究的一组研究对象
研究结果的外推
可以阐明生物学联系的y分析性研究和临床试验的结果比旨在研究特征分布的描述性研究有更好的可外推性。图3.2中,不可靠的外推可能是因为不同人群可能包含了一些生物学因素的差异。
研究计划书中获取研究对象的步骤
选择标准
建立选择标准
临床与社区人群
抽样
非概率抽样
方便样本:满足入选标准且容易获得
连续样本:连续满足入选标准的研究对象(减少志愿者偏倚和其他选择偏倚)
概念抽样
简单随机抽样
系统抽样:按照预先设定好的抽样间隔进行样本选择。容易因人群自然周期影响而产生误差,不具备逻辑优势,很少用
分层随机抽样:将总体分为亚组,对每个亚组进行随机抽样。可以将亚组按权重进行非等比例抽样。
整群抽样:针对由个体组成的自然组(群)的随机抽样
招募(recruitment)
招募目标
确保样本量能够1.减少系统误差(偏倚)2.减少随机误差(偶然性)
获得有代表性的样本
应尽力降低无应答率。无应答对外推性的影响程度取决于研究问题本身以及无应答的原因。
研究对象的类别
分析性研究——队列研究:
暴露组 & 对照组
分析性研究——病例对照研究:
病例组 & 对照组
实验性研究——临床试验:
以病例为研究对象——实验组 & 对照组
第四章 设计测量:精确度、准确度与真实性
from——
https://www.bilibili.com/video/BV1wa411D7AA?p=4&vd_source=c0dbdc586b0a9cc369073a67625b7397
测量四要素:测量客体、测量内容、测量法则、测量结果
测量层次:定类测量、定序测量、定距测量、定比测量
定类测量:分类要穷尽并具有互斥性
定距测量:不同等级之间的间隔距离和数量差别(如年龄差距,温度差距等)
定比测量:具有绝对的零点,可做加减乘除运算(如收入、性别比等)
测量尺度(Measurement Scales)
研究变量:定量变量(连续型/离散型)、定性变量(二分类变量/多分类变量)、等级变量(分等级后分组计数,半定量性质)
根据研究目的确定变量:主要变量、相关变量、混杂变量
选择测量尺度
量表的使用:自评式量表、半定式访谈量表、定式访谈量表
量表的评价:信度(可靠性)、效度(有效性或准确性)
精确度(precision)
第五章 准备估计样本量:假设和基本原则
from——
检验水平(α)和把握度(1-β)
假阳性:无效的被当作有效的
假阴性:有效的被埋没
如果某项试验得出的结果没有显著意义(P>0.05)可能是由于power不够大,样本量不足导致的。(本来应该小于α,即一般定为0.05)
变异(标准差)
这个值越大,所需的样本量越大。
有意义的差值Δ/δ
单侧、双侧检验
常见样本量计算
- 假设检验的类型
- 差异性检验
- 区间假设检验
- 非劣效性检验
- 等效性检验
- 优效性检验
差异性检验:Δ取0,不研究差异了多少
非劣效性检验:显示试验药的治疗效果在临床上不劣于阳性对照药
等效性检验:检验试验药与阳性对照药在疗效上相当(差距不超过Δ)
优效性检验:当研究者认为试验药比对照药优于某一具有临床意义的数值Δ时才是优效,这种试验是。。。
样本量的影响因素
多重假设 & 事后假设
主要假设 & 次要假设
第六章 估计样本量与效能:应用与举例
from——
t检验
检验两组数据之间的均数是否存在显著差异(好于直接比较均值大小、能够对现象是否是偶然发生的做出推论)
使用t检验的前提
1.正态分布:
被测量的变量需要在总体和样本中呈正态分布
2.方差齐性:
需要两样本之间的方差不能差太多
独立样本t检验
配对样本t检验
样本来自同一批人或者对两个不同样本进行配对
单样本t检验
样本均值与已知的总均值进行比较
方差分析
比较不同组之间的均值是否存在显著差异(多组),但到哪两组之间存在显著差异,只知道多组之间存在显著差异。
前提假设
单因素/两因素方差分析:
1.独立随机抽样
2.正态分布
3.方差齐性
重复测量方差分析:
在单因素方差分析的要求基础上要满足协方差齐性(检验方法:Mauchly’s W 检验)
混合设计方差分析:
在单因素方差分析的要求基础上要满足组间协方差齐性(检验方法:Box’s M检验和Mauchly’s W检验)
若F比F临界值大,组间存在显著差异。
单因素方差分析
只有一个自变量,并且变量之间是在不同的组。
多因素方差分析
两个自变量,都是被试间变量。(要探讨交互作用)
重复测量方差分析
重复测量,且有三次以上的测量,比较多次测量之间是否存在显著差异。
混合设计方差分析
例如,有两个自变量,一个自变量是被试间自变量,一个自变量是重复测量
卡方检验
用于检测观测到的类别变量的分布是否与期望的不同。
- 卡方检验
- 单因素卡方检验/卡方拟合度检验
- 二因素卡方检验/独立性卡方检验
前提假设
1.既互斥又互补
每个观测值都会落入一个且可以落入一个类别中。
2.观测值之间相互独立
一个被试一般来说只能被归类一次
3.期望频次(期望频次不能太小)
建议:每个期望值都大于5,如果自由度为1时,则每个期望值都大于10
卡方拟合度检验(单因素)
一个分类变量的预期频率与观察到的频率相比是否存在显著差异。
卡方独立性检验
检验两个类别变量之间是否存在差异
fr是行,fc是列,n是总数(在图中是1000),期望值允许小数
皮尔逊相关和线性回归’
相关需要求的是相关系数r,回归分析则要求的是回归方程。
前提假设
1.所有变量都需要是连续变量(相关和回归都需要
2.必须都是线性相关
3.相关高不代表因果
4.散点图是相关与回归最好的工具
相关
回归
回归的作用:预测
中介分析
考虑自变量X对因变量Y 的影响,如果X通过影响变量M而对Y产生影响,则称M为中介变量。研究者可以通过中介分析来解释一个变量影响另一个变量的过程和机制。
一类错误、二类错误和检验力
一类错误:实际为阴性,被判断为阳性(假阳性)
二类错位:实际为阳性,被判断为阴性(假阴性)
检验力:检测出阳性的概念
即这里的阴性为零假设。
正态分布与z分数
查z分数表
生存分析
from——
一系列用来探究所感兴趣的事件的发生的时间的统计方法。(如癌症患者生存时间分析、机器出故障前的正常运行时间、下岗工人再就业的待业时间等)
生存时间不服从正态分布
生存曲线
logistic回归
from——
ROC曲线
from——
评价分类模型的可视化曲线。
ROC曲线如何解读:
横轴理解为代价,纵轴理解为收获。
ROC曲线的最佳阈值的确定:
最佳阈值的意义在于尽可能保证模型较高的真阳性率和假阳性率,因此TPR-FPR越大越好,因此max(TPR-FPR)的点一般确定为最佳阈值点。
倾向性匹配得分(PSM)
from——
观察性研究之PSM | 倾向性匹配得分 | 控制混杂偏倚 | 队列研究 | 病例对照研究 | 临床研究 | 限制、分层、匹配、多因素分析_哔哩哔哩_bilibili 观察性研究之PSM | 倾向性匹配得分 | 控制混杂偏倚 | 队列研究 | 病例对照研究 | 临床研究 | 限制、分层、匹配、多因素分析, 视频播放量 7518、弹幕量 1、点赞数 253、投硬币枚数 137、收藏人数 848、转发人数 98, 视频作者 粉面菜蛋肠 , 作者简介 提供代码(付费)微信:rlanguage (备注代码),相关视频:新手向PSM 倾向性得分匹配基本操作、注意事项与结 https://www.bilibili.com/video/BV1TC4y1N7ge/?spm_id_from=333.337.search-card.all.click&vd_source=c0dbdc586b0a9cc369073a67625b7397
进行倾向性评分匹配的原因
倾向得分&回归模型的区别