- 博客(7)
- 资源 (20)
- 收藏
- 关注
原创 临床公共数据库挖掘系列1---seer数据库注册
对于很多没有临床数据和不会做实验的小伙伴,使用国际公共数据库进行发表论文也是一个很好的选择,简单来说就是用别人的数据来发表自己的论文。seer数据库是美国的癌症数据库,最初是用于社会保险,今年来在医学领域也有广泛的应用,seer数据库的数据非常庞大,指标众多,比TCGA癌症数据库大很多,不容易出现你发表的论文别人已经发表了这种尴尬情况,总的来说,目前seer数据库对于新手来说,还是一个挖坟不错的好数据库。我们的零基础科研课程也将准备上线整套seer数据库从注册,到数据整理,统计分析的一系列详细课程,有需要的
2020-12-31 10:39:17 5912
原创 R语言Logistic回归模型的外部验证(2)
Logistic回归模型在临床应用十分广泛,可以用于预测、诊断等。上次我们说了COX回归使用C-index进行外部验证,今天我们来说说Logistic回归使用AUC进行外部验证。Logistic回归模型同样也要进行校准度和区分度的评价,关于校准度和区分度的概念就不说了,自行百度把。首先我们得选出两个相同指标的数据集,一个用于建模,一个用于验证,我发现R语言的survival数据集刚好自带了两个数据mgus,mgus2,有相同的参数,可以用于建模和验证。先把数据导入library(survival)l
2020-12-30 10:59:23 14756 6
原创 手把手教你使用R语言做LASSO 回归
LASSO 回归也叫套索回归,是通过生成一个惩罚函数是回归模型中的变量系数进行压缩,达到防止过度拟合,解决严重共线性的问题,LASSO 回归最先由英国人Robert Tibshirani提出,目前在预测模型中应用非常广泛。在新格兰文献中,有大牛提出,对于变量过多而且变量数较少的模型拟合,首先要考虑使用LASSO 惩罚函数。今天我们来讲讲怎么使用R语言通过LASSO 回归构造预测模型。首先我们要下载R的glmnet包,由 LASSO 回归的发明人,斯坦福统计学家 Trevor Hastie 领衔开发。加载
2020-12-25 17:29:28 88442 108
原创 手把手教你使用R语言做出SCI论文中的表二(单因素分析表)(3)
在前面的章节中,我们已经探讨了2种SCI单因素表的制作方法,今天我们来将第三种表,其实这三种表已经涵盖了绝大部分的SCI的单因素表,只要您有心,绝对可以做出来。今天我们来看看这第三种,这种就像是第二种的加强版,先把产妇分为未生育的和已经生育的,再在里面比较两个人群前置胎盘患者的关系。我们还是使用既往的乳腺癌的数据age表示年龄,pathsize表示病理肿瘤大小(厘米),lnpos表示腋窝淋巴结阳性,histgrad表示病理组织学等级,er表示雌激素受体状态,pr表示孕激素受体状态,status结局事件
2020-12-23 10:55:04 2263
原创 R语言COX回归后制作列线图并外部验证(1)
模型除了内部验证还有外部验证。模型的外部验证就是使用另外的数据来验证模型的好坏,增强自己模型可信的说服力。模型的外部验证方法有很多种如:C-index、AUC IDI、NRI等,使用SPSS也是可以的。我们来一一进行演示,本章先说C-index,这种方法主要用于COX回归。模型外部验证涉及到两个关键的指标:校准度和区分度。预测模型有优劣之分,好的模型不仅可以较准确的预测终点事件发生概率(校准度好),也可以很好地区分数据集中发生终点事件概率不同的对象(区分度好)沿着我们之前的帖子,手**把手教你使用R语言
2020-12-14 11:27:39 16349 26
原创 使用SPSS对数据异常值进行探索分析
我们在进行临床分析数据的时候,有时候常遇到临床数据结果和临床常识不一样的时候。比如按照临床经验,下图B指标应该随着A指标升高而不断升高的,但是在A指标在115到126左右这段A指标升高,B指标反而下降了,为什么会这样呢?我们可以把这段指标的数据提出来,和其他的数据进行比较,得出差异,进行分析使用SPSS把数据打开然后点击转换,编码为不同的变量把A指标选入,选择范围这个选项A指标中115-126这段,把它转换成1,其他指标转换成2这样就得到了新的分类指标A1我们可以通过单因素方差分析和
2020-12-09 14:11:56 10252
原创 使用RStudio导出高清符合要求的SCI图片
SCI论文一般都需要高分辨率的图片,最好是那种可以自由拖动的矢量图,但是Rstudio自己生成的tif格式的图片图像质量都很差,不能满足论文要求。目前通常一些做法是先保存为ESP这种矢量图格式,再通过Adobe Illustrator软件来编辑保存,转换格式但是通过这样的方法,有些图片会损失一些信息,如我这张图片的可信区间就看不见了,没有可信区间的图片肯定是不合格的。我们还可以通过保存为PDF格式来解决这个办法,做出高清没有损失的图片。我们先把图片保存为PDF格式然后通过AdobePhotos
2020-12-05 20:29:37 18392 1
美国芝加哥1987年至 2000年大气污染与死亡数据2(第二部分),可用于时间相关序列数据分析
2023-02-17
一步到位:手把手教你R语言竞争风险模型建模-列线图-校准曲线-K折验证-外部验证- 决策曲线
2022-06-20
利用重抽样获取广义可加模型曲线的可信区间重抽样代码
2022-05-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人