BIGZJU-CSDN博客

原创基于文章的连续时间三状态马尔科夫模型示例（简化版）

本研究使用R语言复刻了《柳叶刀公共卫生》关于中国老年人独立预期寿命的队列研究方法。通过生成10,000人的模拟数据，构建连续时间三状态马尔科夫模型（独立、依赖、死亡），并考虑性别、年龄、生活方式和社会因素等协变量。

2025-12-31 14:27:50 150

原创层次聚类R复现

1. 数据准备# 加载数据 (Boston数据集包含波士顿郊区房价及相关特征)# 查看数据结构# 清理数据 (移除缺失值)# 数据简单描述# Boston数据集变量解释# crim: 犯罪率 per capita by town# zn: 住宅用地比例 for lots over 25,000 sq. ft.# indus: 非零售业务用地比例 per town。

2025-03-02 14:34:43 574

上图中的红色圆点是政策冲击前的平均治疗效果 (采用了 95% 的置信区间)，可以看出红色圆点在 95% 的置信水平下趋近于 0，符合平行趋势假设。通过对每段时期的处理效应进行估计，上图表示个体参与治疗的总体处理效应。样例数据集包含 2003 年至 2007 年 500 个县级青少年就业率的数据，其中一些州在 2004 年首次接受治疗，也有一些在 2006 年或 2007 年接受治疗。从总体平均处理效应 (ATE) 的结果来看，提高最低工资会使青少年就业率下降 3.1%，在 10% 的置信水平下显著。

2024-12-07 21:54:33 1559

原创 dnaMethyAge包学习笔记

许多对甲基化年龄进行计算的文章都是采用网站实现计算的，能够实现对甲基化年龄的计算的R包相对比较少，其中应用最广的是dnaMethyAge包。作者本想寻找能够计算Grimage和Grimage2的R包，奈何没有寻找到，因此只能记录一下能够计算其他许多甲基化年龄的R包dnaMethyAge的学习笔记。

2024-11-17 08:54:11 635

原创 r：用circlize包绘制染色体圈图

本博客使用的教程来自，可以在该网站查找circlize包的所有用法。

2024-09-16 23:28:50 1253

原创 cox回归亚组分析中计算交互效应的三种方法

交互作用：某一因素的真实效应（单独效应）随着另一因素水平的改变而改变。当两种或两种以上暴露因素同时存在时所致的效应不等于它们单个作用相联合的效应时，则称因素之间存在交互作用。① 因素A的效应在因素B的不同水平上存在差异，则认为因素A、B之间存在交互作用。② 因素A、B的联合效应不等于两因素独立效应之和或之积。

2024-09-15 12:35:26 4072 2

原创 COX时变系数模型（含时间协变量的Cox回归模型）的R语言实现

0 = 无症状，1 = 有症状但完全不卧床，2 = 卧床时间 < 50%，3 = 卧床时间 > 50% 但不卧床，4 = 卧床，ph.karno: 由医师评定的 Karnofsky 表现评分（差=0-好=100），pat.karno: 由患者评定的 Karnofsky 性能评分，meal.cal: 用餐时消耗的卡路里，wt.loss: 过去六个月的体重减轻（磅）ph.karno 和 tt(ph.karno) 的系数都具有统计显着性，这意味着 ph.karno 的影响随时间而变化。

2024-08-11 17:42:01 3027

原创置换多元方差分析PERMANOVA+主坐标分析PCoA 算法与代码复现

相对于主成分分析，两者的区别为PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分，而PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标。计算距离后，维度会减一，从而2个样本可在一维进行展现，3个样本可在二维进行展现……如果是n个样本，则需要进行降维，将高维展现到二维或三维。通过一个样本间的距离矩阵或相似性矩阵构建ANOVA分析类似的统计量，然后对每组的观测结果进行随机置换来计算显著性P-value。黄色部分是组间差异，蓝色部分是组内差异，每个值是计算出的距离（一般为bary方法）。

2024-08-11 10:51:44 2407

原创基于SVD的主成分分析（R语言）

代码已经进行了逐行注释，此外，如代码所示，可以从svd（）的返回结果中提取出左奇异矩阵u(n*m)、奇异值矩阵D(m*m)、右奇异矩阵v(m*m)。对于验证集数据的矩阵，直接乘以v，即完成了将其投影到训练集的主成分坐标上的操作。（即进行了一次换底，将数据用主成分为底来进行表示）PCA其实在R语言中，对于一个nxm的矩阵（n条数据，m个参数指标）进行奇异值分解非常简单，一行就搞定了。上述代码首先基于训练集数据得到了u,D,v，u*D则是训练集样本在主成分空间的坐标值。

2024-06-30 17:36:59 417 1

原创 R语言：利用rdrobust包进行断点回归分析的学习记录

不同的是，局部非参数估计还需要确定最优带宽。d.针对带宽的敏感性分析：即断点不改变，但更换选择的最优带宽，进行多次局部非参数检验，如果更换带宽之后，仍然能在断点处识别的处理效应，说明研究的干预措施是有效的，因为在研究设定的断点处识别到的处理效应不是由于某一特点的带宽下才观测到的，说明处理效应稳健。b.针对断点的敏感性分析：更换断点，检验是否左右还存在处理效应，如果更换断点后，仍然存在处理效应，则无法说明本研究的干预措施是有效的，这说明在研究设定的断点处识别到的处理效应，有可能是由其他因素引起的。

2024-05-27 22:21:35 3634

原创基于burceR包和mma包的多重中介效应分析学习笔记

（本文章部分学习自https://www.zhihu.com/tardis/zm/art/376007591?

2024-05-25 11:44:20 3758 2

原创 r语言：基于bigsnpr包的GRS计算

但实际操作中还要进行连锁不平衡调整、beta收缩、p-value阈值化等处理。bigsnpr包是一个用于处理大规模SNP数据的r包，可以用于进行GRS计算。本文向大家介绍使用bigsnpr包，用SCT（Stacked Clumping and Thresholding）方法进行GRS计算的方法。首先，获得大规模SNP数据，以示例数据public-data.rds为例。将示例数据中的599个样本分为训练集（400）和测试集（199）进行阈值化，筛选出和表型强相关的SNPs。GRS计算的概念公式为。

2024-05-13 17:23:08 1048

原创 R语言：结构方程模型实现

结构方程模型（Structural Equation Modeling,SEM）是一种建立、估计和检验因果关系模型的方法，其核心在于分析变量间协方差。构建一个SEM模型首先根据数据集的实际含义模拟关联路径，进而拟合SEM模型并进行检验。如果模型效果不佳，再回到第一步重新调整路径直到模型通过检测。结构方程模型中的变量可分类成内生变量和外生变量两类。外生变量不受模型中其他因素影响（即没有指向其的单向箭头），而内生因素受到其他因素的影响（有指向其的单向箭头）。

2024-05-12 19:50:10 11422

原创基于survival包的生存分析R语言实现

本质上，对数秩检验将每个组中观察到的事件数与原假设为真（即，生存曲线相同）下的预期事件进行比较。生存分析是分析生存时间的统计学方法，其因变量需要用生存时间和结局状态两个变量来刻画，可以将终点事件是否发生以及发生终点事件所经历的时间相结合起来。生存分析的主要内容有。不同的是，不同的方法在计算统计量的时候，赋予了不同的权重。横轴（x轴）表示以天为单位的时间，纵轴（y轴）表示生存的可能性或生存的人口比例。()获取生存曲线的统计量。生存差异的对数秩检验得出p值为p = 0.0013，表明性别群体的生存差异显着。

2024-04-19 00:02:00 8210 3

原创 R代码学习：LRT似然比检验和eQTL分析

lrt似然比检验和eQTL表达数量性状位点分析的r代码分享

2024-04-14 11:10:26 2567 1

原创多组学分析MOFA用法

多组学分析是结合多种组学，如转录组、基因组等，构建基因表达网络，深层次理解分子的调控和因果关系，使用无监督的机器学习方法，并且可以设置使用GPU进行训练本文是对“Drug-perturbation-based stratification of blood cancer”的复现，旨在说明多组学分析的进行方法CLL：慢性淋巴细胞白血病。

2024-03-09 09:57:31 1830

原创基于nlmr包的非线性孟德尔随机化分析

具体方法为，利用暴露的分布将人群划分为不同的层，并估算每个层的因果效应，即局部平均因果效应（LACE）。这两种方法都能很好地估计真实的暴露-结果关系，特别是当这种关系是分数多项式（分数多项式法）或片断线性（片断线性法）时。为了让大家对nlmr包的应用有更具体的理解，下面我以探究BMI与冠心病之间的因果关系为例，展示SNPs，β值，se值的获取。暴露和结局要用到个体水平的数据（比如ukb），此处仍以函数生成的形式展现，大家使用代码时改为个体水平的暴露和结局数据即可。首先向大家介绍包的作者在官网（

2024-02-29 20:59:32 2142 5

原创多重插补和决策曲线分析的R语言代码实现

多重插补主要是根据链式方程进行，大致步骤如下：1、针对存在缺失值的k个变量，每个变量指定一个插补模型。2、分别对存在缺失值的变量，由其观测值的总体分布中抽取用于替换缺失值的插补值，但注意，这并不等于最终插补值。计算分布：利用上一步获得的扰动回归系数，针对每个具有缺失数据的个体，确定第一个变量的条件性分布。4、重复步骤3，插补每一个具有缺失数据的变量。6、重复步骤3、4、5，共N次，产生N个插补数据集。缺失值情况可视化如下,当然这只是在数据量大时帮助我们判断整体情况的工具，最主要的是拿到我们插补的数据集。

2023-12-03 14:44:28 1943 1

2301_79584199的博客