医学和生信笔记-CSDN博客

原创决策曲线添加彩色条带

右侧阈值，0.707的净获益还是正数，0.708的净获益就是负数了，所以这个阈值应该是在0.707~0.708之间，我们就取个大约的数字，0.7。通常在解读列线图时，我们需要汇报到底在哪个阈值区间内，我们的模型是更有临床意义的，在这个区间内也就是上图中的。左侧的阈值大概在0.1左右，右侧的阈值大概在0.7左右。左侧的阈值应该就是在相同的横坐标下，有了这两个阈值就是有了矩形的坐标，所以下面再准备3个矩形的坐标即可，如果是。如果是默认的出图，那就更简单了，因为都是R语言默认的画图引擎，支持所有。

2024-05-05 21:16:15 1033

原创 time-dependent平滑ROC曲线

公众号后台回复即可获取最佳截点和推文合集；回复即可获取ROC曲线合集推文。在查看相关资料时发现了risksetROC这个R包，也可以实现曲线的绘制，而且可以实现。平滑曲线这个功能在timeROC和中都是不能实现的，我们介绍过一种借助ggplot2下面简单介绍下如何实现平滑的time-dependent ROC曲线。分类资料的平滑ROC曲线可以通过pROC。

2024-05-05 21:12:53 417

原创 tidymodels超参数设置

生成的随机网格有几个问题，首先就是，如果网格的规模比较小，那么参数值组合之间可能会有重叠；中设置超参数的方法很灵活，在实际使用中需要注意，选择自己最喜欢的一种即可，尤其是设定超参数网格的方法，大家一定不要搞混了！在进行网格搜索时，我们经常要提前设置超参数的网格范围，在实际使用中我们经常要先建立模型，然后选择合适的超参数范围（虽然是有默认范围的，但有时我们可能想要更改）。提供了另外几种、被称为空间填充设计的，生成不规则网格的方法，用来弥补随机网格的缺点。同时设置多个超参数的范围也是可以的。

2024-05-05 21:09:36 720

原创 Python绘制列线图

主要是调节一下字体、标签啥的，和R语言中各种列线图的丰富选项是不能比的哈~下面是使用演示，首先需要自己准备一个excel文件，这个文件内容长这样：出图如下：作者觉得相比于R和SAS，这个包绘制列线图的优势是可以显示risk，这是其他方式不具备的。使用时记得引用文献：这个文献中还比较了一下和SAS、R中绘制列线图的异同：所以你会使用这个python库绘制列线图吗？公众号后台回复列线图即可获取列线图绘制合集，包括各种花里胡哨的列线图！

2024-05-05 21:04:46 419

原创 compareGroups1行代码生成基线资料表

REGICOR是一个对来自西班牙东北部的参与者进行的横断面研究，包括：人口统计学信息（年龄、性别、身高、体重、腰围等）、血脂特征（总胆固醇和胆固醇、甘油三酯等）、问卷调查信息（体格活动，生活质量，…可用一句代码生成基线资料表、单因素分析表、多因素分析表等，可直接把结果导出为csv、Excel、Word、Markdown、LaTeX、PDF，而且十分美观，大大提高工作效率。（或者NO，no，不区分大小写）这个类别，那就以这个类别为参考，这是一个可适用于所有变量的参数。

2024-05-05 21:03:08 857

原创校准曲线和决策曲线使用的是生存概率还是死亡概率

生存分析（英语：Survival analysis）是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断，研究生存时间和结局与众多影响因素间关系及其程度大小的方法，也称生存率分析或存活率分析，例如生物有机体的死亡和机械系统的故障。画COX模型的校准曲线需要实际生存概率和预测生存概率，但是关于生存概率到底是怎么算出来的，还有算出来的到底是死亡概率还是生存概率，一直搞不清楚，所以写这篇明确一下。生存/死亡概率这种说法在某些数据集是成立的，比如这里的数据，其结局就是生存或者死亡。

2024-01-03 18:14:29 1069

原创亚组分析和多因素回归的森林图比较

森林图作为临床文献中常见的图形，相信大家已经不陌生了，我们在之前也介绍过多次森林图的绘制方法了，包括亚组分析的R语言实现等，公众号后台回复即可获取合集。不知道大家有没有注意过，亚组分析的森林图和多因素回归的森林图几乎长得一模一样！比如以下两幅森林图：不得不说，这两幅图的样式虽然不一样，但是都显示了HR及可信区间、P值等信息，而且两幅图都有亚组，我在刚开始学习的时候也是非常疑惑，但是当我手动实现过亚组分析和多因素回归的森林图后，一切就很简单了，无非是长得像而已，但是表达的意思完全不一样！

2024-01-03 18:13:09 1299

原创 complexheatmap绘制TCGA的MAF突变全景图

直接从TCGA官网下载的突变maf数据可以提供给maftools直接使用，画出突变瀑布图。但是不能直接提供给使用，需要提前处理一下，今天演示下如何处理。对TCGA的MAF数据使用ComplexHeatmap绘制突变全景图。

2024-01-03 18:11:38 1201 1

原创 MOVICS：分子分型一站式R包（03）

是的，还有一个尚未使用的数据集，让我们看看我们是否可以使用这些亚型特异性的生物标志物来验证外部Yau队列中的当前乳腺癌亚型。具体来说，首先在发现（训练）队列（即TCGA-BRCA队列）中使用PAM（partition around medoids）分类器来训练模型，以预测验证（测试）队列（即BRCA-Yau队列）中患者的亚型，并将验证队列中的每个样本分配给与其质心具有最高的Pearson相关性的亚型标签17。的全部内容了，非常丰富，提供分子分型的绝大多数分析，只需要提供正确的数据即可。

2024-01-03 18:08:09 1020

原创 MOVICS：分子分型一站式R包（02）

为了定量这些可能影响免疫治疗的基因组改变，MOVICS提供了两个函数来计算总突变负荷（TMB）和基因组改变比例（FGA）。具体而言，TMB指的是在肿瘤基因组中发现的突变数量，而FGA是受复制数增减影响的基因组百分比。所有这些度量范围从0到1，值越大，两个评估之间的相似度就越高。该函数还可以生成一张液态图（alluvial-diagram），以当前亚型作为参考，可视化两个评估与当前亚型的一致性。目前，许多癌症都有传统的分类方法，评估新亚型与先前分类的一致性对于反映聚类分析的稳健性和确定潜在的新亚型至关重要。

2024-01-03 18:06:51 969

原创 MOVICS:分子分型一站式R包（01）

免疫浸润结果分子分型MOVICS。该包与其他分子分型R包最大的不同是它能同时使用多组学的数据，普通的分子分型R包只能通过一种组学数据进行分析，比如只能通过mRNA的表达矩阵进行分析。但是这R包它可以同时通过比如说mRNA、lncRNA、甲基化数据、突变数据进行分型。之外，它还提供了分型之后每个亚型的探索以及每个亚型内的分析。所以说这是一个一站式的包。这个的功能主要分为三个部分，示意图如下：第一个部分是根据不同的组学数据进行分型。大部分是比较不同的分型。

2024-01-03 18:03:57 1205

原创 R语言药敏分析oncoPredict

之前已经详细介绍过pRRophetic包预测药物敏感性了，但是这个包太古老了，我估计很多人会困在安装这一步，毕竟对于新手来说最难的就是R包安装了。今天介绍下，这个包是pRRophetic的升级版，使用方法和原理一模一样，只是换了以下训练数据而已，也就是默认适用的数据库不一样了，其他都是一样的。除此之外还增加了几个新的函数。主要功能是预测药物反应和药物-基因关联，github的描述：包的作者说他们会持续更新这个包，你们信吗？CRAN和github都显示上次更新是2年前了~

2023-12-15 15:27:22 1570

原创 R语言药敏分析pRRophetic

这个R包的思路其实很简单，就是根据已知的细胞系表达矩阵和药物敏感性信息作为训练集建立模型，然后对新的表达矩阵进行预测。已知的信息就是从直接从上面介绍的数据库下载的，pRRophetic包使用的是CGP和CCLE的数据，但是CCLE的药敏数据只有24种药物和500多个细胞系，数据量比较少，所以通常大家使用的都是CGP的数据。作者专门发了一篇文章，详细介绍该包背后的方法和原理：。

2023-12-15 15:26:39 916

原创计算列线图得分并进行危险分层

列线图是模型的图形化表达方式，通过列线图可以计算直观的看出某个患者的得分，方便分析患者的风险。关于列线图，我们介绍过很多次了，公众号后台回复有粉丝问如何根据列线图得分进行危险分层，其实思路很简单，先计算每个患者的得分，然后根据进行分层即可。这个最佳截断值，我们也介绍过非常多的方法了，公众号后台回复。

2023-12-15 15:25:26 1324 1

原创竞争风险模型的列线图和校准曲线

主要是借助cmprsk这个包实现的，并且列线图的绘制也是间接实现的。今天介绍的QHScrnomo依赖于rmscmprskHmisc等包，是专门用于竞争风险模型的列线图绘制，除此之外还可以建立模型、绘制校准曲线、进行内外部验证等。

2023-12-15 15:24:45 472

原创 ROC曲线最佳截点

前面我们介绍了超多可用于确定连续性变量最佳截点的R包，比如x-tilecutoffROC曲线一般用在诊断实验中，ROC的最佳截点，通常是要ROC曲线下面积最大(或者最大敏感性、最大特异性等)，也就是基于约登指数。今天介绍一些常见的可以用于确定ROC曲线最佳截点的R包，同时包含了二分类数据和生存数据，有一些包我们在之前的推文中也介绍过。

2023-12-15 15:24:09 1753

原创最佳截断值之cutoff包

关于连续性变量最佳截断值的选择，之前介绍了survminer中的以及X-tilecutoff。

2023-12-15 15:23:18 679

原创 WGCNA分类变量处理

这篇推文主要探讨下WGCNA如何处理分类性状。eigengenes可以代表某个模块，在计算出模块的eigengenes后，下一步就是探索eigengenes和性状之间的关系，也就是模块和性状之间的关系。大家见到的比较多的是计算相关性，此时需要性状是数字才行。但是大家的性状有很多分类变量，此时应该如何处理呢？WGCNA假如我们有一个无序分类变量x我们可以把它变成3组之间的形式，使用的是或者变成1-vs-all。

2023-12-15 15:22:40 623

原创 Publish做亚组分析有问题吗？

来自另一位大佬的消息：已经有人用SAS验证过了，样本量大的时候确实有问题。所以我依然还是不推荐用这个包做亚组分析哈~Publish包有一个函数也可以实现亚组分析。我在之前的推文中说这个函数有一些问题，所以不推荐使用。今天来探索下它的问题。还是用之前的数据集，这里就不对这个数据集做介绍了，大家可以翻看之前的推文。结果给出了HR、HR的可信区间、P-for-interaction。我们探索下它的HR、HR的可信区间、P-for-interaction是怎么计算的。

2023-12-15 15:21:36 345

原创医学影像分析常用R包

本文翻译自，限于个人水平，难免有错误，欢迎大家阅读原文。医学影像是由磁共振成像（MRI），计算机断层扫描（CT）和正电子发射断层扫描（PET）等系统产生的。它们通常是三维的，有时还具有随时间或方向而变化的维度。除此之外还包含其他很多信息。这些信息和影像通常是通过几种专用格式存储的。此任务视图中的R包旨在读取和写出这些文件、可视化医学影像并以各种方式处理它们。其中一些R包也适用于常规图像处理，一些通用图像处理R包也可以用于处理医学影像数据。

2023-12-15 15:20:14 1061

原创 tidymodels之parsnip的强大之处

我们在之前的推文中已经给大家介绍了tidymodels工作流是tidymodels中非常重要的概念，它可以把模型设定和预处理步骤（在tidymodels中称为）连接起来，成为一个整体的对象。tidymodels框架认为预处理和模型应该放在一起评估，不应该单独执行。放在一起有诸多好处，关于这里的细节，大家可以参考《Tidymodeling with R》。我们在之前已经给大家介绍过了工作流的用法了，今天再介绍一下parsnip，这也是tidymodels的核心包之一，主要用来选择（创建）模型的。

2023-12-15 15:19:25 415

原创 R语言glmnet做lasso回归

本文是对glmnet包的说明，主要参考官方文档：https://glmnet.stanford.edu/glmnet包可以实现lasso回归、岭（ridge）回归、弹性网络（elastic-net），它非常强大，可以用于的Lasso或弹性网络正则化路径拟合，并且效率极高。我们主要介绍它的lasso回归功能，主要是因为lasso可以把变量的系数变为0，达到筛选变量的目的。并且我们会以逻辑回归和COX回归的lasso为例进行演示。在进行演示前，有一些基础知识需要大家提前了解。

2023-12-15 15:18:22 1012

原创生存分析最佳截断值的确定

在做生存分析时，连续型变量最佳截断值的选择，是很火爆的问题。因为有的时候即使你通过单因素或者多因素分析得到了结果，但是根据这个结果进行K-M生存分析发现P值并不显著（P>0.05）。那这个时候你可能需要重新寻找最佳的截断值，使得K-M生存分析有意义。survminer。

2023-12-15 15:17:22 1693 2

原创 8篇文章详解亚组分析及森林图绘制

森林图作为常用的数据展示方法，在R中的实现方式非常多，不管是多因素回归的森林图还是亚组分析的森林图，还是meta分析的森林图，都可以在R语言中找到合适的绘制工具，其颜值高，可定制化强，但部分R包使用起来具有一定的门槛，不如ggplot2系列简单好用。本文总结了一些常见的森林图绘制方法，不过对于一些简单的数据来说，肯定是首推使用ggplot绘制。这样有关亚组分析和森林图绘制的教程就全了，大家可以在此基础上进行各种个性化的修改。免费QQ交流群1：613637742（已满）知乎、CSDN、简书同名账号。

2023-12-15 15:15:19 916

原创 R语言模糊匹配连接fuzzyjoin

fuzzyjoin包是dplyr连接操作的变体，它可以支持模糊（匹配）连接，比如忽略单词之间的大小写，根据正则表达式进行连接，忽略单词的拼写错误等。该包中的函数命名也很简单易懂，对于六个dplyr中join。

2023-12-15 15:12:48 424

原创免费的R语言实战医学统计合集又更新了

目前R语言实战医学统计的内容已经非常丰富，在我的医学统计合集中已经有60+原创推文，绝对干货！主要是基于黄湘云大佬的模板进行更改的：https://bookdown.org/xiangyun/bookdown-template/最近又对网页版内容和格式进行了一次更新，原本是常规的bookdown模板，现在改成了更好看的3列式，排版更加精美了。除此之外，还增加了更新日志，让大家明白每次更新了哪些内容，并且在一些章节中添加了我认为非常棒的参考资料。tidy风格医学统计增加秩和检验和卡方检验等内容；

2023-12-15 15:10:33 473

原创 SCI图表学习NC的fig1

今天学习1篇去年发表在NC上的经典文献：Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer，其中的Fig 1。虽然只是1个Fig 1，但是这工作量真的不小。并且在推文中扩展了一些其他技能。

2023-10-19 16:07:13 168

原创 11篇文章详解聚类和PCA可视化

聚类分析和主成分分析是常见的两种研究方法，可用于发现规律、探索异常观测等，在医学研究和生信数据挖掘中都是必学的方法，主成分分析也是机器学习中常见的降维方法之一。这里总结了R语言中常见的聚类分析和主成分分析可视化的方法。

2023-10-19 16:05:33 253

原创超级炫酷的决策树可视化R包

决策树的可视化我们之前介绍过，主要是使用rpart.plottreeheatr。

2023-09-16 16:14:38 184

原创 caret教程10：随机森林示例

我们今天给大家演示下caret包做随机森林分类的一个小例子，同时也给大家看看做预处理和不做预处理两种情况下的模型表现。

2023-09-16 16:08:17 205

原创 caret教程09：决策树小例子

前面已经铺垫了超多caret的基础知识，所以下面就是具体的实战演示了。今天给大家演示下caret做决策树的例子，但其实并不是很好用，还不如之前介绍的直接使用rpart，或者tidymodelsmlr3。

2023-09-16 16:07:28 226

原创 caret教程08：过滤法

今天就给大家演示在caret中的实现。首先要理解过滤法，其实很简单，就是在建立模型前先根据一些标准把一些变量过滤掉，然后再建模。举个简单的例子，假如你的结果变量是二分类，自变量是数值型，那么对于每一个自变量，我们都可以以结果变量为分组变量，对自变量做方差分析，如果一个自变量在两个类别（也就是两个组别）中没有统计学差异，那这个变量就可以删掉了，因为它在两种类别中没有差别，并不能帮我们判断一个样本到底属于哪种类别。类似的还有t检验、卡方检验、等等，这些方法的选择在这里主要是根据预测变量和结果变量的类型。

2023-09-16 16:06:21 84

原创 caret教程07：递归特征消除

caretmlr3tidymodels今天给大家介绍caret中的递归特征消除法。递归特征消除(recursive feature elimination, rfe)是变量筛选的方法之一，属于包装法，同时也是向后选择法。caret中的rfe的基本做法是这样的：对模型进行多次训练，每次训练后消除不重要的特征（这个可以用变量重要性、变量的系数等衡量，不同算法有不同的衡量标准），再使用剩下的特征继续训练。在caret中通过rfeIter和rfe分别实现递归特征消除和交叉验证的递归特征消除。

2023-09-16 16:05:35 954 2

原创 caret教程06：模型评价

介绍caret包中的常见的模型评价指标及可视化方法。关于机器学习中到底有哪些评价指标，每种指标表示什么意思，大家需要自己学习。二分类问题的评价指标基本上都是围绕混淆矩阵来的，所以你一定要搞清楚混淆矩阵！另外，临床预测模型领域常见的指标基本都是使用了机器学习领域的指标。

2023-09-16 16:04:31 278

原创 caret教程05：类不平衡数据的处理

分类问题中结果变量的类不平衡很常见，一个类明显多于另一种，这样的结果会产生很大影响。SMOTEROSEDMwRROSE除此之外，有些算法在自带权重选项，可以给类少的类别配上更高的权重，这样也可以减少类不平衡带来的影响。关于这几种方法的详细解释，大家可以自行了解，我们主要演示caret中的实现方法。

2023-09-16 16:02:47 261

原创 caret教程04：建模和调参

本文主要演示caret包的基本使用，比如建模、重抽样方法选择、调参、可视化、模型比较等。caret目前支持238个model。这个数目是mlr3和tidymodels不能比的！基本你知道的不知道的模型caret都支持（但是仅限分类和回归）！关于每种模型的具体实现方法，背后的原理，超参数等，需要大家自己学习哦，我只提供R语言的实现方法。下面用几个例子演示下。

2023-09-16 16:01:47 359

原创 caret教程03：数据划分

caret提供了很多数据划分的函数，比如使用实现简单的训练集测试集划分，还有时间序列数据集的划分等多种方法。这部分内容比较简单，简单介绍下。

2023-09-16 16:00:35 152

原创 caret教程02：数据预处理

面向医学生/医生的实用机器学习教程系列推文本篇主要介绍caret中常见的数据预处理步骤，而且非常简单容易记住！这篇可以作为上一篇的补充篇，两篇推文配合阅读，效果更好，部分内容有重复。关于数据预处理后期会再出2篇推文，分别介绍如何使用tidymodels和mlr3实现数据预处理。另外，除了caret中自带的这些数据处理步骤，caret包还可以和recipes包同时使用，支持recipes包中的数据预处理方式！

2023-09-16 15:59:35 160

原创 caret教程01：可视化

面向医学生/医生的实用机器学习教程系列推文caret包全称，是专门用于分类和回归的综合性机器学习R包。目前涵盖238个模型！所有支持的模型可以在这里找到：https://topepo.github.io/caret/available-models.html目前caret不会增加新功能了，因为包的作者max Kuhn已经加入rstudio，目前是tidymodels的开发者！但是这并不影响caret的简单好用！虽然目前tidymodels和mlr3发展迅速，但是就功能而言，还是和caret有些差距！

2023-09-10 12:45:41 226

原创 tidymodels-workflow工作流

首先对tidymodels有一个整体的认知。今天主要介绍workflow的用法。workflow可以把你的数据预处理步骤和模型连接起来，形成一个整体，而不是完全分割开来的，在tidymodels中主要作用是连接parsnip和recipes产生的对象。一个完整的workflow如下图所示：数据预处理和模型选择是一个整体，workflow就是用来做这个工作。目前tidymodels强推workflow，建议以后大家使用的时候不管有没有预处理步骤，都使用workflow，因为统一的语法更好理解也好记忆。

2023-09-10 12:43:35 120

caret chreatsheet

空空如也