自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(332)
  • 资源 (9)
  • 收藏
  • 关注

原创 我写的全部R包和函数,持续更新中

最开始写了逻辑回归和线性回归的,后面又写了cox回归的。用于nhanes数据(复杂调查数据)的一键生存交互效应表(P for interaction)这个函数写了2套,相乘的模型。目前据我所知,目前尚未有专门的nhanes数据匹配的函数或者R包,应粉丝的要求,开发了svypm2函数,目前只能做2组分类的倾向评分匹配,3组分类的倾向评分匹配的还要等一等。应很多的粉丝的要求,编写了新版本的亚组交互函数(P for interaction),支持多个亚组参照比较,此函数还在进一步升级中。目前最新是2.0版本。

2024-08-19 11:12:58 856

原创 CHARLS数据库系列教程(4)--多模型效应分析、Per SD、P for trend及限制立方样条图绘制

为利用国际上最佳的数据采集方式,并确保研究结果的国际可比性CHARLS 参照包括美国的健康与退休研究(HRS)在内的系列国际老龄调查研究开展调查设计。2019 年底到 2020 年初,新冠疫情在中国爆发,为及时记录新冠疫情对中国中老年人生活和健康的影响,在 2020 年的第 5 轮调查中增加采集了疫情相关的信息。CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。

2024-09-29 11:26:57 400

原创 NHANES数据(复杂调查数据)亚组交互函数2.3版(P for interaction)发布---用于一键生成交互效应表

什么是亚组,通常就是特殊类型人群,比如男女,种族等,就是说你的数据放入特殊人群中结果还可靠吗?在既往文章《NHANES数据(复杂调查数据)亚组交互函数2.2版(P for interaction)发布—用于一键生成交互效应表》中,咱们发布了svy.scitb5函数,反响还不错,基本没啥大问题,有个小问题是部分结果只能得到可信区间,算不出来P值,这个其实是survey包的问题,对于协变量过多而你的数据相对较少的话,生成模型较复杂,模型残差自由度消耗为零,所以算不出来,因此发布了2.3版,我来演示一下。

2024-09-27 11:12:59 367

原创 CHARLS数据库系列教程(3)---绘制(加权和不加权)基线表一

为利用国际上最佳的数据采集方式,并确保研究结果的国际可比性CHARLS 参照包括美国的健康与退休研究(HRS)在内的系列国际老龄调查研究开展调查设计。2019 年底到 2020 年初,新冠疫情在中国爆发,为及时记录新冠疫情对中国中老年人生活和健康的影响,在 2020 年的第 5 轮调查中增加采集了疫情相关的信息。在上一篇文章中,咱们还有一个随访时间忘记生成了,这里我补充介绍一下,主要在合并数据后生成,我们看到,在2013年确诊糖尿病的这部分是随访了2年,2015年确诊和没有确诊的都随访了4年。

2024-09-24 10:15:13 352

原创 跟着BMJ玩转预测模型系列(1)--计算开发临床预测模型所需的样本量

作者分成了3种情况,第一种是:二分类逻辑回归的,第二种是生存分析,第三种,type参数,“c”指定了具有连续结果的预测模型的样本量计算,“b”指定具有二元结果的预测模型的样本量计算,“s”指定了具有生存期(事件发生时间)结果的预测模型的样本量计算。先看下它的模型参数,大概就是下面这样的,parameters 协变量个数 , prevalence ,患病率 ,csrsquared:R方 ,type类型。这里显示需要695例样本量,最后来做个连续变量的,使用的是我的臭氧数据。不会的还可以看下面视频。

2024-09-19 11:27:27 637

原创 CHARLS数据库系列教程(2)---数据清洗、拼接和整理(1)

作者指出甘油三酯葡萄糖指数被认为是胰岛素抵抗的替代物,研究TYG指数与中国中年和老年人患糖尿病的风险之间的关系,作者做了cox回归,分位数回归、多模型比较、限制性立方样条和亚组分析,咱们在后面将会一一进行介绍,咱们先看看作者是怎么获取数据的,主要看流程图。CHARLS数据最麻烦的就是整理数据了,因为没有成熟的查对系统,一边整理一边查找变量,我整理了这份数据也花了2天时间,整理数据内容比较多,光代码都有100多行,1章实在说不完,准备写成个2章得小合集,尽量介绍得详细一点。

2024-09-15 11:20:55 561

原创 R语言进行无序多分类Logistic回归

在临床研究中,接触最多的是二分类数据,如淋巴癌是否转移,是否死亡,这些因变量最后都可以转换成二分类0与1的问题。更改了参考类别后,咱们使用prog2为结局变量建立无序多分类逻辑回归模型,很多包可以建立这个模型,我这里用vglm包来建,我觉得比较简单点。这个数据是高中生毕业后的一个就业计划数据,Prog是结局变量,是个三分类变量,预测变量是ses社会经济地位,其他的是一些协变量。还可以做交互效应的,把交互效应打上去就可以啦,我这里就不弄了。变量比较多,咱们选出需要的变量,并且把字符变量转成因子。

2024-09-11 17:34:00 564

原创 Nhanes数据(复杂调查数据)绘制限制立方样条(rcs)函数svyggrcs1.8尝鲜版发布

这是一个转移性胃癌患者(Power、Capanu、Kelsen 和 Shah 2011)的数据(公众号回复:胃癌数据,可以获得数据),数据很多我们选取一部分建模,age_dx:年龄,group:分组变量,分为存活率小于2年的和大于两年的,inv_weight:概率权重,ssize:每个分组患者的人数,survival生存时间,surv_cens生存结局。我们打开看一下,生成3个内容,newdat是绘图数据,你可以通过它手动绘图,这样自由度大一点,boot.p是重抽样生成的图片,p2是rms包生成的图片。

2024-09-04 11:00:10 1044

原创 CHARLS数据库挖掘系列教程(1)---数据库下载

Charls的数据量不大,但是变量挺多的,非常详尽,特别是一些社科类的数据,又经过多年的随访,挺适合做重复测量数据的,因为表格众多,所以涉及到数据的合并、拼接和清洗,这是一个重要的内容,下一节继续介绍。申请账号以后进入到主页面,需要哪一年的数据都要进行申请,一般都成功,大概3个工作日通过,通过上面的内可以得知2011年是数据的基线表,后面的是随访分析,所以2011年是一定要下载的。比如怎么收集都数据的,和nhanes有些相似,采用多阶段抽样的方式,先选定县区,然后再县区内随机抽取3个二级单元。

2024-08-28 09:56:02 1292

原创 13篇R语言重抽样文章带你由浅入深掌握数据重抽样技术

利用sample函数重抽样获取广义可加模型函数曲线的可信区间,这可是一个非常实用的技能,假设我们想了解某连续变量和结果之间的关系,可以使用mgcv包获得两者之间的曲线关系,但是mgcv不能做出95%可信区间,我们可以通过重抽样获取其可信区间。目前常用的曲线拟合主要是广义可加模型和RCS,在文章《利用重抽样获取mgcv包的广义可加模型函数曲线的可信区间(3)》,的基础上进行分类的曲线拟合。通过重抽样获取模型的变量的系数和标准误,从而得到可信区间,这对于没有提供可信区间的模型比较有用。

2024-08-22 08:25:24 612

原创 首发,nhanes数据(复杂调查数据)倾向性评分匹配函数(PSM)svypm2发布

目前据我所知,目前尚未有专门的nhanes数据匹配的函数或者R包,应粉丝的要求,开发了svypm2函数,目前只能做2组分类的倾向评分匹配,3组分类的倾向评分匹配的还要等一等。给大家多一种选择,仅此而已。最后我总结一下,所谓匹配,就是找到相似的数据,因此协变量越多的话你的卡钳应该尽量的小,因此匹配得到的数据也会比卡钳大的数据小。这里我解释一下参数,data是你的数据,x是你需要进行分组匹配的变量,Y是你研究的结局变量,必须是分二类变量,covs是你要调整的协变量,design这里填入咱们的调查函数。

2024-08-13 09:09:27 710

原创 代码+视频,R语言VRPM绘制多种模型的彩色列线图

列线图,又称诺莫图(Nomogram),它是建立在回归分析的基础上,使用多个临床指标或者生物属性,然后采用带有分数高低的线段,从而达到设置的目的:基于多个变量的值预测一定的临床结局或者某类事件发生的概率。列线图(Nomogram)可以用于多指标联合诊断或预测疾病发病或进展。咱们既往已经多篇文章介绍绘制列线图,今天咱们来视频介绍一下VRPM包绘制彩色列线图,这个包可以绘制多个模型的列线图,咱们一一来介绍。近些年来在高质量SCI临床论文中用的越来越多。R语言VRPM绘制多种模型的彩色列线图。

2024-08-09 09:08:57 403

原创 奇奇怪怪的知识又增加了---给数据自动加上千分位

千分位形式,即从个位数起,每三位之间加一个逗号,例如,将7654321输出成7,654,321。有粉丝私信问,投稿中经常有编辑要求给数字加上千分位,往往需要手动添加,太麻烦,能不能自动给数据加上千分位。处理表格的数据需要使用lapply函数或者sapply函数搭配一下,我这里使用sapply函数,这样就成了,非常简单把,如果是一串数字咱们实现呢,咱们先生成一个向量。那如果是表格式的数据可以改吗,也是很轻松的,咱们先生成一个表格。Sapply这里返回的是向量,重新把它组成表格就可以了,

2024-08-07 13:35:48 221

原创 NHANES数据(复杂调查数据)亚组交互函数2.2版(P for interaction)发布---用于一键生成交互效应表

我来解释一下data是数据,必须数据框形式,x是你研究的目标变量,y是你的结局变量,Interaction是你的分层变量,这个必须是分类变量并转成因子,cov是你的协变量,在我的设定中cov是要包含Interaction的,这也符合我们的习惯,但是你也可以使用contain=F把它关掉。本次发布的2.2函数版本,构架变动挺大的,除了修正了前面版本的一些小问题,之前1.6版本的结果和手动验证还是有点差别,新版本改进了算法,并且增加了线性回归的森林图绘制,下面我来演示一下。先来个X是连续变量Y是分类变量的。

2024-07-31 09:53:51 870

原创 R语言优雅的进行广义可加模型泊松回归分析

我解释一下变量名:dyad是ID标识的意思,background:表明来自哪个国家,months:月份,只有10,11,12共3个月,gesture手势的类型,count:手势的计数,这个是 结局变量。既往已经有文章《R语言进行泊松回归》初步的介绍了泊松回归,本期介绍下如何使用tidygam包来优雅的进行泊松回归,tidygam包主要是通过mgcv包来进行分析,通过对tidygam包对mgcv包的数据转换后,上手难度大大降低,可以轻松优雅的进行泊松回归分析。绘图,一定要用series标明绘制哪个变量。

2024-07-24 16:19:30 759

原创 R语言优雅的把数据基线表(表一)导出到word

数据解释如下:low 是否是小于2500g早产低体重儿,age 母亲的年龄,lwt 末次月经体重,race 种族,smoke 孕期抽烟,ptl 早产史(计数),ht 有高血压病史,ui 子宫过敏,ftv 早孕时看医生的次数,bwt 新生儿体重数值。假设咱们想race为研究目标,因为它是分类变量,咱们最好把它转成因子,因为scitb包有一定对数据类型的判定能力,如果你的分类变量类别大于5个,而你不转成因子的话,它可能自动判定为连续变量,处理方式不一样的,所以这里最好自己设定一下。

2024-07-17 19:02:41 900

原创 新版亚组交互效应函数(P for interaction)newscitb5 1.3版本发布--用于一键生成交互效应表

什么是亚组,通常就是特殊类型人群,比如男女,种族等,就是说你的数据放入特殊人群中结果还可靠吗?在第二个表格进行了另外一种方式对数据的处理,等于是把数据分层了8个亚组,女性Q1组,女性Q2组,女性Q3组,女性Q4组,男性Q1组,男性Q2组,男性Q3组,男性Q4组,以女性女性Q1组为参考,其他数据和它进行了参考。生成数据,data就是你的数据,x就是你研究的变量,y就是你的结局变量,结局变量必须是分类变量,Interaction就是你的分层变量,cov就是你的协变量,family="glm"这里是固定的。

2024-07-09 09:39:51 1232

原创 ggrcs包4.0版本发布—重新对密度图宽度进行了设计

目前本人写的ggrcs包新的4.0版本已经在CRAN上线,目前支持逻辑回归(logistic回归)、cox回归和多元线性回归。第二个就是线性回归中因为宽度问题导致绘图不美观的问题,使用我的臭氧数据来演示这个情况(公众号回复:臭氧数据,可以获得这个数据)第一个是有柱子在负轴的问题,既往偶有柱子在负轴的问题,我用一个粉丝的数据来演示一下,代码不解释了,可以看我既往的文章。绘制出的这个图不怎么美观是因为宽度没有控制好,新版本对宽度重新进行自动计算后,还是原来的代码。需要的可以使用代码安装。

2024-07-05 09:12:11 510

原创 R语言fastshap包进行支持向量机shap可视化分析

数据变量很多,我解释几个我等下要用的,HBP:是否发生高血压,结局指标,AGE:年龄,是我们的协变量,BMI肥胖指数,FEV1肺活量指标,WEIGHT体重,“SBP”,“DBP”:收缩压和舒张压。生成以后就是用fastshap包的explain函数来进行计算shap就可以了,使用的是蒙特卡罗算法。使用fastshap包可以做很多模型的shap,做shap可视化的关键就是要定义一个生成预测值概率的函数,接下来咱们要生成一个支持向量机的模型,这里我就直接上代码了,想具体了解的直接可以看上面的文章。

2024-07-03 09:10:49 681

原创 推荐一本RMS包作者写的我正在追读的书《Regression Modeling Strategies》

文章表明一般来说节点数再3——5之间就可以了,节点为4通常可以很好的拟合了,样本量小(n100)的时候可以选5,也可以使用AIC的似然比来决定K值。写这本书的就是RMS包的作者,这是他早些年写的书,我们可以结合他写的书来加深对RMS包的理解,我个人觉得写得很好。熟悉我的粉丝都清楚,我很少推荐书,这次推荐这本书是我目前正在读的,这是本老书了,关于回归模型的,我觉得写的很好。看了这本书后发现,以前R的赋值符号是下面这种,就完全理解了,这是进化后的箭头。

2024-06-26 11:50:23 421

原创 新手(初学者)学R语言第一课,从学正确导入数据开始

因为R语言是个注重格式的语言,目前导入数据的R包种类繁多,有些R包存在格式转换问题,所以导入数据后分析容易出现各种各样的问题。有人可能会说这是我scitb5函数的bug,但其实不是是这句很普通代码的报错,一句涉及数据转换的代码,这句代码应该很常用,涉及很多场景,很多R包都会用。第二:如果是SPSS数据,咱们可以使用foreign包,如我乳腺癌的例子,to.data.frame=T这个一定要有,因为这句等于把数据转成数据框。我推荐两种方法导入数据,这些都是我长期实践觉得比较稳定,不容易出错的,

2024-06-21 09:05:28 1530

原创 代码+视频,手把手教你下载NHANES死亡数据

美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。既往再文章《Nhanes临床数据库挖掘教程1----数据库下载》中,咱们已经初步介绍了Nhanes临床数据的下载,但是这个数据没有涉及到死亡结局和随访时间,本次继续视频介绍如何下载死亡结局相关的数据。地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx。

2024-06-14 09:43:53 1727

原创 R语言使用survivalsvm包进行支持向量机生存分析

age表示年龄,pathsize表示病理肿瘤大小(厘米),lnpos表示腋窝淋巴结阳性,histgrad表示病理组织学等级,er表示雌激素受体状态,pr表示孕激素受体状态,status结局事件是否死亡,pathscat表示病理肿瘤大小类别(分组变量),ln_yesno表示是否有淋巴结肿大,time是生存时间,后面的agec是我们自己设定的,不用管它。开始我看到结果有点懵,这是预测啥呀,这个不是预测概率,我看到有些文章把这个当作概率来跑,还画了roc和决策曲线什么的,肯定不对的。因此预测得就是生存时间啦。

2024-06-12 09:41:16 1269

原创 关于目前ggrcs包的报错解决方案

我查看了一下,目前报错来源于新版本后的RMS包,主要是预测函数的报错,这个只能等R包作者来修复这个错误。目前需要急用的话,我提供了一个方案,请看下面视频操作。目前有不少粉丝私信我说使用ggrcs包出现如下错误。关于目前ggrcs包的报错解决方案。

2024-06-10 09:25:52 2081 9

原创 NHANES数据(复杂调查数据)COX回归亚组交互函数1.8尝鲜版(P for interaction)发布

在SCI文章中,交互效应表格(通常是表五)能为文章锦上添花,增加文章的信服力,增加结果的可信程度,还能进行数据挖掘。我来解释一下data是数据,必须数据框形式,x是你研究的目标变量,y是你的结局变量,Interaction是你的分层变量,这个必须是分类变量并转成因子,cov是你的协变量。可以看到DMDMARTL=0的时候,HR是0.99,P值是0.203,DMDMARTL=1的时候HR是1.01,P值是0.141,和咱们算出来是非常接近的,所以可靠性是没有问题的。下面我来介绍一下,咱们先导入数据。

2024-06-07 09:05:31 1309

原创 代码+视频,R语言如何从可信区间推断P值

它们不正确的主要背景是小样本,其中结果是连续的,并且分析是通过t检验或方差分析完成的,或者结果是二分的,并且对置信区间使用了精确方法。但是,即使在这种情况下,在包含 60 名或更多患者的大型研究中,这些方法也将大致正确。但是在:一些已发表的文章报告了置信区间,但没有给出相应的P值,如荟萃分析。在我们的一些重抽样中也可以得出可信区间,但是没P值。对于非常小的 P 值,P 公式是不可靠的,如果您的 P 值小于 0.0001,则只需将其报告为 P

2024-06-05 09:03:53 323 1

原创 ggscidca包2.3版本发布, 10分钟让你成为决策曲线高手

age表示年龄,pathsize表示病理肿瘤大小(厘米),lnpos表示腋窝淋巴结阳性,histgrad表示病理组织学等级,er表示雌激素受体状态,pr表示孕激素受体状态,status结局事件是否死亡,pathscat表示病理肿瘤大小类别(分组变量),ln_yesno表示是否有淋巴结肿大,time是生存时间,后面的agec是我们自己设定的,不用管它。值得注意的是,如果是多个时间点的决策曲线,时间的个数和模型的个数还有数据的个数必须一致,因为是一个个的对应跑模型的,下面我来示范一个错误的。

2024-05-29 09:14:51 1147

原创 代码+视频,总结R语言常用的几种按条件转换数据的方法

在科学研究中免不了和数据打交道,收集到原始数据后我们经常需要对其进行清洗、转换才能得到我们需要的数据。今天我总结了一下自己常用的一些多条件的数据转换方法,在临床中遇到问题能多一种选择,下面视频操作演示一下。总结R语言常用的几种按条件转换数据的方法。

2024-05-24 09:03:53 308

转载 nhanes数据行ROC曲线并BOOT重抽样获取可信区间

美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。既往咱们已经多篇文章对nhanes数据进行了分析介绍,粉丝私信问:如何行ROC分析,并重抽样获取可信区间。地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx。

2024-05-20 09:15:53 215

原创 R语言使用 ggscidca包优雅的绘制支持向量机决策曲线

数据变量很多,我解释几个我等下要用的,HBP:是否发生高血压,结局指标,AGE:年龄,是我们的协变量,BMI肥胖指数,FEV1肺活量指标,WEIGHT体重,“SBP”,“DBP”:收缩压和舒张压。进行分析前还需对数据进行预处理,如果你是多分类的,并且数据差异大,可以使用分层抽样,尽量是数据匹配一下,方法详见我既往文章《R语言两种方法实现随机分层抽样》,我这里是二分类,我就不弄了。最后向大家汇报一下,多模型的决策曲线和混合模型的决策曲线已经写好,下周上传,到时我再出个视频介绍一下。定义一个标准化的小程序。

2024-05-17 09:23:11 526

原创 R语言手把手教你进行支持向量机分析

数据变量很多,我解释几个我等下要用的,HBP:是否发生高血压,结局指标,AGE:年龄,是我们的协变量,BMI肥胖指数,FEV1肺活量指标,WEIGHT体重,“SBP”,“DBP”:收缩压和舒张压。公众号回复:体检数据,可以获得数据。上图给出了一些模型的基本参数,默认情况下,gamma为预测变量个数的倒数,cost为1。进行分析前还需对数据进行预处理,如果你是多分类的,并且数据差异大,可以使用分层抽样,尽量是数据匹配一下,方法详见我既往文章《R语言两种方法实现随机分层抽样》,我这里是二分类,我就不弄了。

2024-05-14 09:07:46 1452

原创 代码+视频,R言语处理数据中的缺失值

在SCI论文中,我们不可避免和缺失数据打交道,特别是在回顾性研究,对于缺失的协变量(就是混杂因素),我们可以使用插补补齐数据,但是对于结局变量和原因变量的缺失,我们不能这么做。部分人的做法是直接删除掉这部分的数据(如SEER数据库),有些高分SCI杂志的审稿人会问你缺失数据的情况和你是怎么处理的,如果我们能附上一个缺失数据和未缺失数据比较的表格,可以起到一表抵千言万语的作用,如下图。今天咱们视频演示一下如何R语言做出上面的表格。R言语处理数据中的缺失值。

2024-05-11 10:18:09 392

原创 R语言两种方法实现随机分层抽样

其实用起来非常简单哈,data就是你的数据,strataname就是你分层的变量名字,我们这里当然是SEX性别啦,size就是你抽取的数量,method是抽取的方法,有不替换的简单随机抽样(srswr)、替换的简单随意抽样(srswr)、泊松抽样(Poisson)、系统抽样(systematic sampling);这是个体检相关的数据,公众号回复:体检数据,可以获得这个数据。如果要提取数据,需要使用ID_unit这个变量,这是数据的标识,咱们通常会把分层抽样的数据用来建模,其余的数据用来验证。

2024-05-10 17:39:35 794

原创 scitb5函数2.1版本(交互效应函数P for interaction)发布----用于一键生成交互效应表、森林图

数据解释如下:low 是否是小于2500g早产低体重儿,age 母亲的年龄,lwt 末次月经体重,race 种族,smoke 孕期抽烟,ptl 早产史(计数),ht 有高血压病史,ui 子宫过敏,ftv 早孕时看医生的次数,bwt 新生儿体重数值。加下来说一个包含的问题,在既往函数中,我要求协变量COV是要包含分层变量,不然就会报错,但也有些粉丝说这样有时候不够灵活,新版本中这个包含规则也是可以关掉的,我重新设置一下协变量h额分层。生成结果,这里的Y是连续变量,所以是线性回归。导入我们的早产数据和函数。

2024-05-08 11:51:57 835

原创 生存分析亚组交互函数scitb5.coxph 1.6尝鲜版(P for interaction)发布----用于一键生成交互效应表、森林图

然后一句话代码就可以生成表格,data是你的数据,必须是数据框形式,x是你研究的目标变量,y是你的结局变量,time是你的时间变量,Interaction是你的分层变量,这个必须是分类变量并转成因子,cov是你的协变量,family="cox"这个是固定的。Cox回归也是可以一键生成森林图的,既往森林图黑色我觉得有点单调,改成蓝色了。加下来说一个包含的问题,在既往函数中,我要求协变量COV是要包含分层变量,不然就会报错,但也有些粉丝说这样有时候不够灵活,新版本中这个包含规则也是可以关掉的,比如以下情况。

2024-05-07 09:04:27 871 1

原创 代码+视频,R语言绘制生存分析模型的时间依赖(相关)性roc曲线和时间依赖(相关)性cindex曲线

ROC曲线分析是用于评估一个因素预测能力的手段,是可以用于连续型变量分组的方法。在生存分析中,疾病状态和因素取值均会随时间发生变化。而标准的ROC曲线分析将个体的疾病状态和因素取值视作固定值,未将时间因素考虑在分析之中。在这种情况下,使用时间依赖性ROC无疑是更好的选择。R语言绘制生存分析模型的时间依赖(相关)性roc曲线和时间依赖(相关)性cindex曲线。今天咱们视频来演示一下时间依赖ROC曲线绘制。

2024-04-28 10:11:31 770

原创 R语言使用sjPlot包优雅绘制回归模型的交互效应图

这是一个有关于老年人护理的数据,我介绍一下等会我要用到的变量,neg_c_7:7个项目的负面影响,c12hour:每周平均护理时数,BARTHTOT:总分 BARTHEL INDEX,c161sex :照顾者的性别,得出不同性别,在不同barthtot 分数段中,护理时间和负面影响的关系,我们可以看到barthtot 分数70分这段,护理时间越长,负面影响越高,男女都是一样,儿30分这段随着护理时间延长没有什么变化。除了2项交互,terms- 参数还可以接受三个模型项,因此您还可以计算三向交互的边际效应。

2024-04-25 09:24:29 1248

原创 代码+视频,R语言对数据进行多重插补后回归分析

我们在临床做回顾性研究分析中经常要面对数据缺失的问题,如果数据缺失量大就会对我们的研究结果产生影响,近年来,对数据进行多重插补广泛应用于SCI论文中。我们在之前的文章中已经演示了使用SPSS对数据进行多重插补并分析。今天,我们通过视频演示使用R语言的Mice包来演示多重插补并对数据进行分析。R语言对数据插补并进行分析。

2024-04-19 09:36:35 832

原创 R语言使用installr包对R包进行整体迁移

今天分享一个R语言的实用小技巧,如果咱们重新安装了电脑(我重装了电脑)或者因为需要卸载旧版本的R软件,安装新版本的R,那么必然会造成R包的库缺失,需要重新下载,有些还不是官方的R包,下载非常麻烦。from就是我旧版本的R软件的位置,to就是我新版本的R软件的位置。这个R包的迁移的函数是copy.packages.between.libraries函数,有点长,大概的格式就是下面这样的。咱们可以使用installr包把旧版本的R的R包库转移到新的版本,非常简单。我觉得还是挺简单使用的,本期结束啦。

2024-04-16 09:02:31 2217 3

原创 18篇文章带你深入浅出了解亚组交互作用(p for Interaction)及可视化分析

交互作用效应(p for Interaction)在SCI文章中可以算是一个必杀技,几乎在高分的SCI中必出现,因为把人群分为亚组后再进行统计可以增强文章结果的可靠性,进行可视化后可以清晰的表明变量之间的关系。2. SPSS联合Excel进行logistic回归亚组交互效应(交互作用)的可视化分析,不用代码操作也能做出交互效应图。编写NHANES亚组交互函数,可以一键生存亚组分析交互效应表并绘制森林图,目前已经更新到1.7版本。5.使用visreg包快速进行R语言logistic回归交互项的可视化分析。

2024-04-14 10:48:07 8095

早产数据,可以用于文章中的统计学方法研究

早产数据,可以用于文章中的统计学方法研究

2023-02-21

2000年美国总统全国选举数据,可用于数据分析

2000年美国总统全国选举数据,可用于数据分析

2023-02-21

美国芝加哥1987年至 2000年大气污染与死亡数据2(第二部分),可用于时间相关序列数据分析

美国芝加哥1987年至 2000年大气污染与死亡数据2(第二部分),可用于时间相关序列数据分析

2023-02-17

美国芝加哥1987年至 2000年大气污染与死亡数据,可用于数据分析

美国芝加哥1987年至 2000年大气污染与死亡数据,可用于数据分析

2023-02-17

患者的体检数据2(第二部分),可以用于进行数据分析

患者的体检数据2(第二部分),可以用于进行数据分析

2023-02-16

体检数据,可用于进行文章中的数据分析

体检数据,可用于进行文章中的数据分析

2023-02-16

原发性胆道胆管炎数据,可以用来做数据分析

原发性胆道胆管炎数据,可以用来做数据分析

2022-12-10

nhanes插补数据,可以用于nhanes插补数据的分析

nhanes插补数据,可以用于nhanes插补数据的分析

2022-12-09

森林图数据,可以用于绘制森林图

森林图数据,可以用于绘制文章中的森林图

2022-11-10

纽约房价数据,可用于数据分析

纽约房价数据,可用于数据分析

2022-11-03

自己提取的nhanes数据库

自己提取的nhanes数据库,可用于数据分析

2022-11-03

利用广义可加模型对分类数据进行曲线拟合代码

利用广义可加模型对分类数据进行曲线拟合代码

2022-07-12

一步到位:手把手教你R语言竞争风险模型建模-列线图-校准曲线-K折验证-外部验证- 决策曲线

一步到位:手把手教你R语言竞争风险模型建模-列线图-校准曲线-K折验证-外部验证- 决策曲线

2022-06-20

利用重抽样获取广义可加模型曲线的可信区间重抽样代码

利用sample函数重抽样获取广义可加模型函数曲线的可信区间,这可是一个非常实用的技能,假设我们想了解某连续变量和结果之间的关系,可以使用mgcv包获得两者之间的曲线关系,但是mgcv不能做出95%可信区间,我们可以通过重抽样获取其可信区间。这可是很多的付费课程,付费软件的功能哦。

2022-05-18

SPSS中介效应分析插件(Process和mediate插件)

包含Process和mediate插件

2022-03-09

SPSS主成分分析绘图操作

SPSS主成分分析绘图操作

2022-01-26

stata临床决策曲线包.rar

stata临床决策曲线包,包含有dca包和stdca包

2021-05-31

eicu数据库考试答案.rar

eicu数据库考试答案,我自己写的

2021-01-23

nomocox.zip

stata制作列线图的包(package)

2021-01-20

nomolog.zip

stata制作列线图的包(package)

2021-01-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除