自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 COX时变系数模型(含时间协变量的Cox回归模型)的R语言实现

0 = 无症状,1 = 有症状但完全不卧床,2 = 卧床时间 < 50%,3 = 卧床时间 > 50% 但不卧床,4 = 卧床,ph.karno: 由医师评定的 Karnofsky 表现评分(差=0-好=100),pat.karno: 由患者评定的 Karnofsky 性能评分,meal.cal: 用餐时消耗的卡路里,wt.loss: 过去六个月的体重减轻(磅)ph.karno 和 tt(ph.karno) 的系数都具有统计显着性,这意味着 ph.karno 的影响随时间而变化。

2024-08-11 17:42:01 728

原创 置换多元方差分析PERMANOVA+主坐标分析PCoA 算法与代码复现

相对于主成分分析,两者的区别为PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,而PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标。计算距离后,维度会减一,从而2个样本可在一维进行展现,3个样本可在二维进行展现……如果是n个样本,则需要进行降维,将高维展现到二维或三维。通过一个样本间的距离矩阵或相似性矩阵构建ANOVA分析类似的统计量,然后对每组的观测结果进行随机置换来计算显著性P-value。黄色部分是组间差异,蓝色部分是组内差异,每个值是计算出的距离(一般为bary方法)。

2024-08-11 10:51:44 341

原创 基于SVD的主成分分析(R语言)

代码已经进行了逐行注释,此外,如代码所示,可以从svd()的返回结果中提取出左奇异矩阵u(n*m)、奇异值矩阵D(m*m)、右奇异矩阵v(m*m)。对于验证集数据的矩阵,直接乘以v,即完成了将其投影到训练集的主成分坐标上的操作。(即进行了一次换底,将数据用主成分为底来进行表示)PCA其实在R语言中,对于一个nxm的矩阵(n条数据,m个参数指标)进行奇异值分解非常简单,一行就搞定了。上述代码首先基于训练集数据得到了u,D,v,u*D则是训练集样本在主成分空间的坐标值。

2024-06-30 17:36:59 225 1

原创 R语言:利用rdrobust包进行断点回归分析的学习记录

不同的是,局部非参数估计还需要确定最优带宽。d.针对带宽的敏感性分析:即断点不改变,但更换选择的最优带宽,进行多次局部非参数检验,如果更换带宽之后,仍然能在断点处识别的处理效应,说明研究的干预措施是有效的,因为在研究设定的断点处识别到的处理效应不是由于某一特点的带宽下才观测到的,说明处理效应稳健。b.针对断点的敏感性分析:更换断点,检验是否左右还存在处理效应,如果更换断点后,仍然存在处理效应,则无法说明本研究的干预措施是有效的,这说明在研究设定的断点处识别到的处理效应,有可能是由其他因素引起的。

2024-05-27 22:21:35 1376

原创 基于burceR包和mma包的多重中介效应分析学习笔记

(本文章部分学习自https://www.zhihu.com/tardis/zm/art/376007591?

2024-05-25 11:44:20 1319 2

原创 r语言:基于bigsnpr包的GRS计算

但实际操作中还要进行连锁不平衡调整、beta收缩、p-value阈值化等处理。bigsnpr包是一个用于处理大规模SNP数据的r包,可以用于进行GRS计算。本文向大家介绍使用bigsnpr包,用SCT(Stacked Clumping and Thresholding)方法进行GRS计算的方法。首先,获得大规模SNP数据,以示例数据public-data.rds为例。将示例数据中的599个样本分为训练集(400)和测试集(199)进行阈值化,筛选出和表型强相关的SNPs。GRS计算的概念公式为。

2024-05-13 17:23:08 381

原创 R语言:结构方程模型实现

结构方程模型(Structural Equation Modeling,SEM)是一种建立、估计和检验因果关系模型的方法,其核心在于分析变量间协方差。构建一个SEM模型首先根据数据集的实际含义模拟关联路径,进而拟合SEM模型并进行检验。如果模型效果不佳,再回到第一步重新调整路径直到模型通过检测。结构方程模型中的变量可分类成内生变量和外生变量两类。外生变量不受模型中其他因素影响(即没有指向其的单向箭头),而内生因素受到其他因素的影响(有指向其的单向箭头)。

2024-05-12 19:50:10 2164

原创 基于survival包的生存分析R语言实现

本质上,对数秩检验将每个组中观察到的事件数与原假设为真(即,生存曲线相同)下的预期事件进行比较。生存分析是分析生存时间的统计学方法,其因变量需要用生存时间和结局状态两个变量来刻画,可以将终点事件是否发生以及发生终点事件所经历的时间相结合起来。生存分析的主要内容有。不同的是,不同的方法在计算统计量的时候,赋予了不同的权重。横轴(x轴)表示以天为单位的时间,纵轴(y轴)表示生存的可能性或生存的人口比例。()获取生存曲线的统计量。生存差异的对数秩检验得出p值为p = 0.0013,表明性别群体的生存差异显着。

2024-04-19 00:02:00 1980 2

原创 R代码学习:LRT似然比检验和eQTL分析

lrt似然比检验和eQTL表达数量性状位点分析的r代码分享

2024-04-14 11:10:26 1118 1

原创 多组学分析MOFA用法

多组学分析是结合多种组学,如转录组、基因组等,构建基因表达网络,深层次理解分子的调控和因果关系,使用无监督的机器学习方法,并且可以设置使用GPU进行训练本文是对“Drug-perturbation-based stratification of blood cancer”的复现,旨在说明多组学分析的进行方法CLL:慢性淋巴细胞白血病。

2024-03-09 09:57:31 536

原创 基于nlmr包的非线性孟德尔随机化分析

具体方法为,利用暴露的分布将人群划分为不同的层,并估算每个层的因果效应,即局部平均因果效应(LACE)。这两种方法都能很好地估计真实的暴露-结果关系,特别是当这种关系是分数多项式(分数多项式法)或片断线性(片断线性法)时。为了让大家对nlmr包的应用有更具体的理解,下面我以探究BMI与冠心病之间的因果关系为例,展示SNPs,β值,se值的获取。暴露和结局要用到个体水平的数据(比如ukb),此处仍以函数生成的形式展现,大家使用代码时改为个体水平的暴露和结局数据即可。首先向大家介绍包的作者在官网(

2024-02-29 20:59:32 1055 4

原创 多重插补和决策曲线分析的R语言代码实现

多重插补主要是根据链式方程进行,大致步骤如下:1、针对存在缺失值的k个变量,每个变量指定一个插补模型。2、分别对存在缺失值的变量,由其观测值的总体分布中抽取用于替换缺失值的插补值,但注意,这并不等于最终插补值。计算分布:利用上一步获得的扰动回归系数,针对每个具有缺失数据的个体,确定第一个变量的条件性分布。4、重复步骤3,插补每一个具有缺失数据的变量。6、重复步骤3、4、5,共N次,产生N个插补数据集。缺失值情况可视化如下,当然这只是在数据量大时帮助我们判断整体情况的工具,最主要的是拿到我们插补的数据集。

2023-12-03 14:44:28 614 1

原创 列联图(交叉分析)的R代码实现

使用R语言实现交叉分析,并用ggplot做出可视化结果。

2023-11-20 10:53:34 478

原创 基于rms包的限制性立方样条回归(RCS)R代码实现

RCS

2023-10-16 21:38:06 10294 6

原创 mstate多状态模型使用方法

cox回归、生存分析,使用多状态模型来实现

2023-09-02 19:21:01 1735 2

原创 DAG(有向无环图)的实现方法

DAG(有向无环图)的实现方法,DAG是寻找和筛选合适协变量的可视化方法,可以方便的筛选出所需的协变量

2023-09-02 17:12:24 1509

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除