- 博客(67)
- 收藏
- 关注
原创 per 1 SD/per 10 units/分位数转换
因此,实际研究中研究人员会使用每变化固定增量的形式进行数据转换,像下面这张表格中,ModelⅠ的TyG-BMI,每增加10 Units时,研究人群的死亡风险会增加6.7%(HR=1.067,95% CI:1.049-1.086),如果是以传统1个单位衡量,HR值会更小。,在每增加1个单位的临床意义不是很明确的情况下,可以将其转换为每增加1个SD的形式纳入回归模型中,由此可以指导患者根据自身实际的测量结果,看看自己是处于人群分布水平的几个标准差范围内,进而来评估其对应的风险会改变多少。
2024-09-03 17:48:15
436
原创 判断数据正态分布的超多方法!
在使用这两种检验方法的时候要注意,当样本量较少的时候,检验结果不够敏感,即使数据分布有一定的偏离也不一定能检验出来;在结果输出的Tests of Normality部分,给出了Shapiro-Wilk检验及Kolmogorov-Smirnov检验的结果,P值分别为0.200和0.616,在α=0.05的检验水准下,P>0.05,不拒绝原假设,可认为资料服从正态分布。建议可以直接使用Explore方法,结果中不仅可以输出偏度值,峰度值,绘制直方图,Q-Q图,还可以输出非参数检验的结果,一举多得。
2024-09-03 11:10:19
4450
原创 正态转换的多种方法
一、正偏态分布资料1、轻度正偏态分布偏度值>0,偏度值为其标准误差的2-3倍,即Z-score=2~3,此时认为资料分布呈现轻度的正偏态分布,可以考虑对变量x取根号开平方的方法来进行转换。SPSS语句如下:(SQRT为开平方根Square Root缩写)2、中度正偏态分布偏度值>0,偏度值为其标准误差的3倍以上,即Z-score>3,此时认为资料分布呈现中度的正偏态分布,可以考虑对变量x取对数来进行转换。可以取自然对数(ln)或以10为底的对数(log10)。SPSS语句如下:注意。
2024-09-03 10:56:06
985
原创 七大老年公共数据库
在包括18,177名参与者的CHARLS中,mda8o3浓度每增加10 ppb,发生心脏病的风险增加31%[危险比(HR) = 1.31, 95%可信区间(CI): 1.22-1.42],相应的人群归因分数(PAF)为13.79%[10.12%-17.32%]。在健康与退休研究(1992-2016年招募)中,年龄在50岁以上、在基线时流行病学研究中心抑郁8项量表(csd -8)得分<5分的就业参与者(N=18,571),随访抑郁症状,直到他们首次出现csd -8≥5分或死亡,或通过2018年的调查。
2024-08-19 10:27:32
1577
原创 临床意义与统计学意义,你还差个MCID!
在研究过程中,适当定义和报告MIC/MCID对于得出结果是否具有临床意义至关重要,因此本研究旨在通过汇总失眠干预随机对照试验的结果,确保 MIC 和 MCID 的值在研究过程中能得到正确的运用和理解。最常用的MIC值是下降6分(n=7),其次是8分(n=6)和7分下降(n=4),下降4至5分(n=3),较基线降低30%;4项以匹兹堡睡眠质量指数(PSQI)为结局的研究使用3分变化作为MIC(n=2),使用2.5至2.7分的差异作为MCID(n=2)。(1)仅定义和使用的最小重要变化(MIC)
2024-08-18 16:04:36
422
原创 强烈不推荐重复测量方差分析?
在“repeated-measures analysis(重复测量分析)”,最常用的是mixed-effects model混合效应模型(11%),广义估计方程(7%),广义线性混合模型和重复测量方差分析(各3%),重复测量资料已经很少用了!一旦用了重复测量方差分析,意味着的临床试验的结局指标设定和评价定义是不清晰的,这不是好的临床试验!临床研究,特别是随机对照研究,凡是碰到重复测量资料者,似乎大家都喜欢用重复测量方差分析。如果通过重复测量方差分析,得到的结果是2周、4周、6周效应的的平均值。
2024-08-16 08:46:25
471
原创 Logistic构建预测模型:如何用R语言绘制DCA曲线?(附全套代码)
共纳入了4,920名患有BM的NSCLC患者,并随机分为两个队列(7:3),包括训练队列(n=3,444)和验证队列(n=1,476)。全因ED和癌症特异性ED的独立预后因素包括年龄、性别、种族、肿瘤大小、组织学、T分期、N分期、分级、手术、放疗、化疗、骨转移和肝转移。:在非小细胞肺癌(NSCLC)的整个病程中,很多患者会出现预后差、死亡率高的脑转移(BM)。Logistic构建临床预测模型系列主要以一篇基于logistic回归构建预测模型的文章为例,从整理数据到构建预测模型,再到内部验证模型,
2024-08-15 09:10:23
740
原创 cox构建预测模型(1):复现seer数据库文献解读
首先按照7:3将数据集进行拆分获得训练集与验证集,然后做均衡性检验,比较训练集和验证集的差异性,再做单因素和多因素Cox回归,筛选变量构建列线图预测模型,最后通过校准图、ROC曲线、DCA曲线对模型的校准度、区分度以及临床决策的实际需要进行评价。B图是训练集1年、3年、5年患者的总生存期的DCA曲线,红色线条代表列线图模型(包括构建模型的10个变量),黄色线条代表TNM模型(仅纳入TNM分期3个变量),A-C是训练集1年、3年、5年患者的总生存期校准图,D-F是验证集1年、3年、5年患者的总生存期校准图。
2024-08-14 12:20:38
950
原创 Cox构建预测模型(2):如何用R语言拆分数据集并作均衡性检验
根据列线图上的分数,将患者分为高风险组和低风险组。首先按照7:3将数据集进行拆分获得训练集与验证集,然后做均衡性检验,比较训练集和验证集的差异性,再做单因素和多因素Cox回归,筛选变量构建列线图预测模型,最后通过校准图、ROC曲线、DCA曲线对模型的校准度、区分度以及临床决策的实际需要进行评价。对训练集与验证集提取group变量,并对两个数据集进行合并生成total数据集,total数据集与原数据集相比多了一列分组变量,分组依据是训练集或验证集,以便于通过total数据集进行两个数据集间的均衡性检验。
2024-08-14 12:16:45
1067
原创 Cox构建预测模型(3):如何用R语言做cox先单后多回归分析!(附全套代码)
根据文献中的纳入排除标准,提取涉及的相关数据,最终共纳入1,574名患者(原文献1,641)。案例文献是沈阳医学院公共卫生学院学者基于SEER数据库的一项回顾性研究,旨在建立一个列线图来预测老年恶性骨肿瘤(MBT)患者的总生存期(OS)。我们建立了一个新的列线图来预测老年MBT患者的1年,3年,5年的OS。在影响因素研究中,大家较为熟知的筛选方式是先单后多,但是在预测模型文章中,更为常用的筛选方法是逐步回归法。R包,请注意模型变量的筛选是根据训练集进行的,在进行数据拆分后,需要用训练集来进行Cox回归。
2024-08-14 12:14:53
703
原创 Cox构建预测模型(4):如何用R语言绘制cox预测模型列线图?(附全套代码)
首先按照7:3将数据集进行拆分获得训练集与验证集,然后做均衡性检验,比较训练集和验证集的差异性,再做单因素和多因素Cox回归,最终纳入10个变量建立了列线图。根据文献中的纳入排除标准,提取涉及的相关数据,最终共纳入1,574名患者(原文献1,641)。前面已经为大家介绍了预测模型中训练集与验证集的均衡性比较、Cox回归筛选预测因子,今天继续通过R语言复现seer公共数据库的文章,来为大家介绍绘制列线图的方法。我们建立了一个新的列线图来预测老年MBT患者的1年,3年,5年的OS。在绘制列线图之前必须要完成。
2024-08-14 12:12:55
688
原创 Cox构建预测模型(5):如何用R语言绘制校准曲线(附全套代码)
这篇文献通过绘制两个模型的DCA曲线来评估模型的临床决策实际需求,一个是列线图模型,包括纳入列线图的全部变量,一个是TNM模型,只纳入TNM分期3个变量。A图是训练集1年、3年、5年患者的总生存期的DCA曲线;B图是训练集1年、3年、5年患者的总生存期的DCA曲线,红色线条代表列线图模型(包括构建模型的10个变量),黄色线条代表TNM模型(仅纳入TNM分期3个变量),两个模型对比,在绘制校准图之前,必须要完成数据的导入、拆分数据集的工作、预测因子的筛选,校准图的绘制是分别在训练集与验证集独立进行的。
2024-08-14 12:09:34
951
原创 Cox构建预测模型(6):如何用R语言绘制ROC曲线?(附全套代码)
这篇文献通过绘制两个模型的DCA曲线来评估模型的临床决策实际需求,一个是列线图模型,包括纳入列线图的全部变量,一个是TNM模型,只纳入TNM分期3个变量。A图是训练集1年、3年、5年患者的总生存期的DCA曲线;B图是训练集1年、3年、5年患者的总生存期的DCA曲线,红色线条代表列线图模型(包括构建模型的10个变量),黄色线条代表TNM模型(仅纳入TNM分期3个变量),两个模型对比,这里根据文献,我们需要绘制1年、3年、5年的ROC曲线,为减少篇幅,只为大家展示训练集ROC曲线的绘制,验证集同理。
2024-08-14 12:07:49
1127
原创 Cox构建预测模型(7):如何用R语言绘制DCA曲线?(附全套代码)
这篇文献通过绘制两个模型的DCA曲线来评估模型的临床决策实际需求,一个是列线图模型,包括纳入列线图的全部变量,一个是TNM模型,只纳入TNM分期3个变量。B图是训练集1年、3年、5年患者的总生存期的DCA曲线,红色线条代表列线图模型(包括构建模型的10个变量),黄色线条代表TNM模型(仅纳入TNM分期3个变量),两个模型对比,本次用到的是R版本是4.3.1。原文中的DCA曲线是列线图模型与TNM分期模型进行的对比,因此我们首先需要构建两个模型,模型1纳入列线图中的9个变量,模型2仅纳入TNM分期3个变量。
2024-08-14 12:05:26
799
原创 如何用R语言绘制Kaplan-Meier生存曲线(附全套代码)
实操数据是从seer公共数据库提取的,包括1101名2004-2018诊断的老年恶性骨肿瘤患者的临床病理数据。暴露因素包括年龄、种族、性别、诊断年份、组织学类型、分级、分期、原发位置、TNM分期、肿瘤大小、是否化疗、是否放疗及手术方式。在survival包中使用surv()函数创建生存对象,生存对象是将事件时间和删失信息合并在一起的数据结构,survfit()函数用来拟合生存曲线。在队列随访研究中,我们会事先定义一些观察终点,比如肿瘤复发、患者死亡、血压达标等,这些终点称为。绘制K-M曲线主要用到。
2024-08-14 12:01:55
453
原创 统计小白如何轻松构建Logistic预测模型?
全因ED和癌症特异性ED的独立预后因素包括年龄、性别、种族、肿瘤大小、组织学、T分期、N分期、分级、手术、放疗、化疗、骨转移和肝转移。基于单因素logistic回归分析的结果,单因素分析中的所有显著变量,包括年龄、性别、种族、婚姻状况、Gleason分级、肿瘤大小、组织学、TNM分期、手术、放疗、化疗、骨转移、肝转移均纳入多因素logistic回归分析,结果表明,除婚姻状况和Gleason分级外的变量被确定为预测全因ED的独立因素;然而,很少有模型能预测有脑转移的NSCLC患者的早期死亡(ED)。
2024-08-14 11:59:28
672
原创 一键生成源代码?小白友好的R语言绘制箱式图教程!
method很重要!根据不同的数据类型,选择不同的方法,比如两组正态选用t.test,两组偏态选用wilcox.test,两组及以上偏态数据用kruskal.test,两组及以上正态数据用anova.如果想要增加一些元素,比如绘制抖动点式箱线图,只需要将“add = " NULL"”修改为“add="jitter"”,其他不变,运行后,就可以得到下面的图啦!困难时因为,哪怕别人给你介绍了一堆方法,等我们使用自己的数据的时候,发现还是这不会,那不会的。话说,学习R语言,对于很多人来说很困难,也很眼馋。
2024-08-14 11:46:40
162
原创 倾向性得分匹配后,如何快速开展条件logistic回归?
二分类结局,倾向得分匹配后,可开展配对卡方检验、也可开展logistic回归分析。我们都知道logistic回归,但很多不知道,是通过对样本建模(logit模型)得到倾向性得分,通过倾向性得分为试验组在对照组中找到最接近的样本,从而进行研究的。倾向得分匹配在真实世界临床研究用途越来越广泛,它是一种事后推动。这里仅针对“二分类结局”,提出几种解决。那么匹配完了后,应该用什么方法呢?的方法,控制混杂偏倚。
2024-08-14 11:41:41
312
原创 倾向性得分匹配后,生存时间资料要如何分析?
是通过对样本建模(logit模型)得到倾向性得分,通过倾向性得分为试验组组在对照组中找到最接近的样本,从而进行研究的。这里针对“生存事件资料”,提出几种解决数据不独立、样本量减少的办法。生存事件资料倾向得分匹配后,倾向得分匹配在真实世界临床研究用途越来越广泛,它是一种事后推动。在Cox回归应用上,我看大多数人还用普通的Cox回归。的方法,控制混杂偏倚。那么匹配完了后,应该用什么方法呢?
2024-08-14 11:37:22
666
原创 逐步回归法P值大于0.05的还留在模型怎么办?
它的目的是用最少的因子,成功构建出不差于全变量模型(通过用R^2、-2倍对数似然值或者AIC等指标评价拟合效果),也就是通过软件的方法,筛选出有用的自变量,其拟合效果不差于全部自变量放入模型,而且较少的自变量个数有利于模型的构建(回归模型样本量对自变量个数有限制)。确保每次引入新的变量之前,回归方程中只包含显著性变量,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,最终得到一个最优的变量集合。逐步回归法是给构建预测模型用的,不是探讨影响因素用的。另外一个变量的数值。
2024-08-14 11:21:14
812
原创 R语言的logistic回归分析结果如何快速整合到表格中?
在使用R语言进行logistic回归时,总是不能一步到位完成结果的整理,目前常见的。,如果有更多的变量,结果整理难度也会大大增加!虽然结果展示相对简洁,但仍需要手动处理,,同样也是变量越多,结果整理越困难!
2024-08-14 11:13:44
246
原创 如何批量开展单因素COX回归分析形成表格?
但是需要一定的代码基础,不然面对网络上一大串的代码,也很难修改利用,如下图,一大堆的代码,最后完成了批量单因素分析,结果输出相对SPSS要简洁美观不少,SPSS进行COX回归的操作简单,输出也快速,但只能逐个选入变量进行单因素回归,我们在实际分析中遇到的往往是多个变量进行Cox分析,变量多了,在统计分析过程中,如果有生存时间数据,那么就需要用到生存分析,COX回归了!
2024-08-14 11:10:46
636
原创 SCI论文里如何快速将多个回归结果合并到一张表格中?
在SCI文章中,除了常规的单因素,多因素表格,还经常能见到将多个Model合并在一起的结果表达方式——,这样的形式仅列出不同模型中焦点暴露的回归结果,更加清晰简洁,一目了然!即重点研究某个/多个焦点因素与结局之间的关系,并。
2024-08-13 15:12:19
254
原创 R语言绘制亚组森林图的代码太复杂怎么办
想要森林图美观,就需要大量的参数进行调整了,大到布局与字体标签,小到线条颜色,十分的复杂,那么有没有简便的方法,可以绘制出好看的森林图呢?现在亚组分析好像越来越流行,无论是观察性研究还是RCT研究,亚组分析一般配备森林图。,像是下面寥寥几行代码,绘制的森林图也较为的简单!但是利用R语言绘制森林图,
2024-08-13 15:12:02
226
原创 1分钟轻松get√!!高分SCI同款RCS曲线
是一种常见的统计方法,若自变量x与因变量y之间存在非线性关系时,可以使用RCS曲线来初步探索!的一篇文章,仅RCS曲线研究者就提供了9个,并且色彩各异,十分精美!近年来,在高分SCI文章中常常可以见到!像下图示例,是发表在期刊。
2024-08-13 14:55:33
267
原创 如何快速复现NEJM文章亚组分析森林图?
但是在使用R语言绘制时,想要绘制出同款森林图,少不了复杂参数进行美化调整,这对于没有代码基础的同学来说,是个巨大挑战!现在亚组分析好像越来越流行,无论是观察性研究还是RCT研究,亚组分析一般配备森林图。R语言绘制森林图的美化代码参数(forestploter包)比如下方NEJM这张图,配色布局都比较经典美观!
2024-08-13 14:54:40
124
原创 计算P trend时,如何快速对定量暴露变量进行分位数分组?
但是现实中实操来说,进行定量数据分位数转换还是有点麻烦的,R语言与SPSS都需要先进行数据的描述统计,确定截断值,再进行数据的转换。在SCI文章中,经常可以见到P trend,并且P trend的出现场景比较的单一,文中的分组方式涉及3等分、4等分、5等分......,各式各样都有。
2024-08-13 14:52:47
345
原创 如何快速绘制logistic回归列线图?
用来把多因素回归分析结果(logistic回归和cox回归)用图形方式表现出来,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系。目前,比较传统绘制列线图的方法,还是使用R语言,但是对代码小白来说还是有点困难的,从。,需要逐步修改代码参数,较为费心费力。
2024-08-13 14:49:51
279
原创 亚组分析的结果应该如何解读?
反映的是干预的效果是否受到某个基线特征的影响,也就是不同亚组间干预与结局的关系是否有差异,即干预效果和亚组因素有没有交互作用。除了基础回归的效应值与95%CI和P值,许多文章表格中还会有P interaction,看上去似乎更加高级。首先,常见的亚组分析会有2个P值,一个是回归分析P值,另一个是P for interaction。现在亚组分析好像越来越流行,无论是观察性研究还是RCT研究,亚组分析一般配备森林图。比较好理解,反映在亚组人群中,不同干预措施与结局是否存在关联。
2024-08-13 14:47:15
616
原创 回归分析控制混杂的自变量应该如何筛选呢?
中间Model混杂变量的选择不那么严格,一般来说第二个Model会校正人口学变量,或者根据混杂变量的不同类型,分开校正。像示例3,协变量较多的情况就分开校正了人口学变量、不良习惯与慢病、化验指标几类。在SCI论文中,常常会见到model1,model2,model3.....这样的表述,每个model调整的混杂自变量会有所不同,Model3除年龄性别外还校正了种族,教育,吸烟,饮酒等其他混杂自变量。Model2校正了性别、年龄、种族、婚姻状况、教育、收入。最后一个Model需要校正全部的混杂变量;
2024-08-13 14:45:08
381
原创 如何利用logistic回归快速绘制优美的RCS曲线?
是一种常见的统计方法,若自变量x与因变量y之间存在非线性关系时,可以使用RCS曲线来初步探索!,才可以达到美观的效果,较为繁琐!在医学研究领域,限制性立方样条。然而,目前应用比较多的R语言。需要许多代码参数调整进行美化。
2024-08-13 14:36:52
256
原创 如何用R语言绘制cox预测模型列线图?(附全套代码)
恶性骨肿瘤(MBT)是老年患者死亡的原因之一。我们研究的目的是建立一个列线图来预测老年MBT患者的总生存期(OS)。
2024-08-13 14:14:47
984
原创 如何用R语言做cox先单后多回归分析!(附全套代码)
根据文献中的纳入排除标准,提取涉及的相关数据,最终共纳入1,574名患者(原文献1,641)。案例文献是沈阳医学院公共卫生学院学者基于SEER数据库的一项回顾性研究,旨在建立一个列线图来预测老年恶性骨肿瘤(MBT)患者的总生存期(OS)。我们建立了一个新的列线图来预测老年MBT患者的1年,3年,5年的OS。在影响因素研究中,大家较为熟知的筛选方式是先单后多,但是在预测模型文章中,更为常用的筛选方法是逐步回归法。R包,请注意模型变量的筛选是根据训练集进行的,在进行数据拆分后,需要用训练集来进行Cox回归。
2024-08-13 11:58:02
1350
原创 如何用R语言拆分数据集并作均衡性检验
根据文献中的纳入排除标准,提取涉及的相关数据,最终共纳入1,574名患者(原文献1,641)。对训练集与验证集提取group变量,并对两个数据集进行合并生成total数据集,total数据集与原数据集相比多了一列分组变量,分组依据是训练集或验证集,以便于通过total数据集进行两个数据集间的均衡性检验。今天主要讲解均衡性表的制作,在构建预测模型时必须要有训练集与验证集,而验证集又分为内部验证与外部验证,内部验证是必须的。我们建立了一个新的列线图来预测老年MBT患者的1年,3年,5年的OS。
2024-08-13 11:27:13
928
原创 如何用R语言做cox先单后多回归分析!(附全套代码)
根据文献中的纳入排除标准,提取涉及的相关数据,最终共纳入1,574名患者(原文献1,641)。案例文献是沈阳医学院公共卫生学院学者基于SEER数据库的一项回顾性研究,旨在建立一个列线图来预测老年恶性骨肿瘤(MBT)患者的总生存期(OS)。我们建立了一个新的列线图来预测老年MBT患者的1年,3年,5年的OS。在影响因素研究中,大家较为熟知的筛选方式是先单后多,但是在预测模型文章中,更为常用的筛选方法是逐步回归法。R包,请注意模型变量的筛选是根据训练集进行的,在进行数据拆分后,需要用训练集来进行Cox回归。
2024-08-13 11:25:56
1395
1
原创 如何用R语言做cox先单后多回归分析!(附全套代码)
根据文献中的纳入排除标准,提取涉及的相关数据,最终共纳入1,574名患者(原文献1,641)。案例文献是沈阳医学院公共卫生学院学者基于SEER数据库的一项回顾性研究,旨在建立一个列线图来预测老年恶性骨肿瘤(MBT)患者的总生存期(OS)。我们建立了一个新的列线图来预测老年MBT患者的1年,3年,5年的OS。在影响因素研究中,大家较为熟知的筛选方式是先单后多,但是在预测模型文章中,更为常用的筛选方法是逐步回归法。R包,请注意模型变量的筛选是根据训练集进行的,在进行数据拆分后,需要用训练集来进行Cox回归。
2024-08-13 11:19:49
1495
原创 如何选择RCS曲线最佳节点数?
当样本量较大时,5个节点是更好的选择。小样本(n<30)可以选择3个节点。当节点的个数为2时,得到的拟合曲线就是一条直线。因此,大多数研究者推荐的节点为3-5个。由于节点个数的选择和自由度有关, 所以当样本量比较大的时候可以设置较多的节点。在«Regression Modeling Strategies»这本书中,Harrell建议节点数为4时,模型的拟合效果较好,即。样条曲线本质是一个分段多项式函数,此函数受限于某些控制点,称为 “节点”,节点放置在数据范围内的多个位置,多项式的类型以及。
2024-08-12 15:40:16
411
原创 R 数据类型
向量(Vector)在 Java、Rust、C# 这些专门编程的的语言的标准库里往往会提供,这是因为向量在数学运算中是不可或缺的工具——我们最常见的向量是二维向量,这种向量在平面坐标系中必然会用到。最直观的数据类型就是文本类型。在 Windows 计算机上实现,使用的是 GBK 编码标准,所以一个中文字符是两个字节,如果在 UTF-8 编码的计算机上运行,单个中文字符的字节长度应该是 3。R 语言为线性代数的研究提供了矩阵类型,这种数据结构很类似于其它语言中的二维数组,但 R 提供了语言级的矩阵运算支持。
2024-08-11 21:43:00
307
1、向量(vector) 2、因子(factor) 3、矩阵(matrix) 4、数组(array) 5、列表(list) 6、
2024-08-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人