天桥下的卖艺者-CSDN博客

原创声明，这些内容和我无关

一下内容都不是我写的，系统自己加上去的，和我无关，我不负责答疑也不负责其他。

2025-01-25 10:49:06 385

最开始写了逻辑回归和线性回归的，后面又写了cox回归的。用于nhanes数据（复杂调查数据）的一键生存交互效应表（P for interaction）这个函数写了2套，相乘的模型。目前据我所知，目前尚未有专门的nhanes数据匹配的函数或者R包，应粉丝的要求，开发了svypm2函数，目前只能做2组分类的倾向评分匹配，3组分类的倾向评分匹配的还要等一等。应很多的粉丝的要求，编写了新版本的亚组交互函数（P for interaction），支持多个亚组参照比较，此函数还在进一步升级中。目前最新是2.0版本。

2024-08-19 11:12:58 1863 1

原创 Scitable包+sciml包手把手带你复现一篇5分charls潜轨迹模型+机器学习文章

今天咱们来介绍一下一篇5分的潜轨迹文章+随机森林charls文章复现，文章的名字叫Predictive analysis of bullying victimization trajectory in a Chinese early adolescent cohort based on machine learning（基于机器学习的中国青少年早期队列欺凌受害轨迹预测分析）

2025-06-10 09:56:02 765

原创 sciml包scikfoldcv函数轻松实现机器学习模型进行10折交叉验证

我们在建立数据模型后通常希望在外部数据验证模型的检验能力。然而当没有外部数据可以验证的时候，交叉验证也不失为一种方法。交叉验验证（交叉验证，ＣＶ）则是一种评估模型泛化能力的方法，广泛应用中于数证据采挖掘和机器学习领域，在交叉验证通常将数据集分为两部分，一部分为训练集，用于建立预测模型；另一部分为测试集，用于测试该模型的泛化能力。

2025-06-05 09:08:52 326

原创 R语言使用随机过采样（Random Oversampling）平衡数据集

摘要：随机过采样是一种处理类别不平衡的机器学习技术，通过复制少数类样本来平衡数据集。本文介绍了其优缺点：优点是简单易行且不改变原始数据分布，缺点可能引发过拟合。通过R语言演示了使用ROSE包实现随机过采样的过程，从生成不平衡数据到平衡处理，并可视化对比了处理前后的数据分布差异。该方法适用于逻辑回归等模型，但需注意可能导致的预测偏差，建议配合敏感性分析使用。文章还预告后续将介绍更高级的SMOTE合成采样方法。（149字）

2025-06-03 09:02:59 640

原创 sciml包随机森立函数scirandomForest发布，轻松完成随机森林分析

本文介绍了sciml包中集成的随机森林分析方法scirandomForest。该方法基于randomForest包进行封装，可一键生成随机森林模型及其可视化结果，包括变量重要性排序、SHAP解释、ROC曲线和决策曲线等。文章通过胆管炎数据演示了该函数的使用流程，展示了模型训练、结果解读和验证集评估的全过程。该工具包还支持与其他模型（如逻辑回归）的性能比较，为机器学习分析提供了便捷的解决方案。未来计划扩展支持更多机器学习算法。该方法简化了随机森林分析流程，有助于提高科研效率和结果可解释性。

2025-05-30 09:31:14 374

原创 R语言randomForestExplainer包进行随机森林分析

本文介绍了randomForestExplainer包在随机森林分析中的应用。该包作为randomForest的辅助工具，可帮助用户更直观地理解模型结果。文章以波士顿房价数据为例，演示了如何构建随机森林模型、计算变量最小深度和重要性指标，并通过可视化展示关键变量。重点讲解了缺失值处理方法和多种重要性评估指标的选择策略，最后展示了如何提取最重要的预测变量。该包提供了丰富的可视化功能，有助于深入理解随机森林模型的变量贡献。

2025-05-26 09:05:39 793

原创 scitable包手把手带你复现一篇一区8.5分charls潜轨迹文章

本次复现一篇charls的文章名字《社交和智力活动与我国中老年人群认知轨迹的关联：一项全国代表性队列研究》Associations between social and intellectual activities with cognitive trajectories in Chinese middle-aged and older adults: a nationally representative cohort study

2025-05-20 09:20:03 738

原创 scimp包2.2版发布，增加charls地图拼音省名和图例百分比表示

CHARLS（中国健康与养老追踪调查）是一项针对中国大陆45岁及以上人群的全国性追踪调查，旨在构建一个高质量的公共微观数据库，涵盖社会经济和健康状况等多维度信息，以支持老龄科学研究。该调查参照国际老龄研究标准，如美国的HRS，确保数据的国际可比性。自2011年基线调查以来，已进行了多轮追踪调查，并在2020年增加了新冠疫情相关信息的采集。为便于数据可视化，开发了scimp包中的charlsmap函数，支持快速绘制中国省市级地图，并提供了多种自定义选项，如省名拼音显示、比例调整、图例标题修改及多颜色配置，帮助

2025-05-14 09:03:24 465

原创 Scitable包+ggscitable包手把手带你复现一篇3.8分charls潜轨迹模型（GBTM）文章

本文复现了《固体烹饪燃料使用与衰弱轨迹之间的关联：来自中国全国队列的结果》一文的研究，探讨了固体燃料使用与衰弱轨迹之间的关系。研究基于中国全国队列数据，通过潜轨迹模型（GBTM）分析虚弱指数的变化轨迹，并将其分为四类：低水平组1、低水平组2、快速升高组和缓慢升高组。研究结果显示，使用固体燃料与虚弱指数的快速增长显著相关，而清洁能源的使用则与缓慢增长相关。复现过程中，作者使用了R语言进行数据处理和模型拟合，并通过基线表和逻辑回归模型验证了研究结果。复现结果与原研究基本一致，进一步支持了固体燃料使用对健康的负面

2025-05-12 09:06:52 938

原创 Scitable包charlscognition函数发布，秒提取charls数据中的认知功能（痴呆）数据

先提取2011年的，要先生成2011年数据，其实主要是要demographic_background，health_status_and_functioning，health_care_and_insurance这三个，我这里直接沿用既往代码了。CHARLS数据中有个变量就是认知功能（痴呆）的评分，再医学和社会学很多文章用得到，但是这个指标需要手工提取，目前我编写了charlscognition函数，可以很方便的提取出认知功能（痴呆）的评分。可以提取2011-2018年的认知评分数据。

2025-05-08 08:48:24 378

原创 R语言traj包进行潜轨迹分析

这种方法结合了潜变量模型和轨迹分析的优点，可以用来探索不同个体随时间变化的规律或趋势，并将这些个体分类到不同的潜类别中去。目前潜轨迹模型（GBTM）属于比较好发文的，能发的文章分数也比较高，有些机构还开专门开了潜轨迹模型（GBTM）培训班，既往咱们已经介绍额如何使用lcmm包构建潜轨迹模型，今天咱们来介绍traj包进行潜轨迹分析。例如，在医学研究中，它可以用来分析患者在接受某种治疗后的恢复过程，识别出不同的恢复模式以及与之相关的因素。咱们先导入R包和数据，数据使用R包自带的trajdata数据。

2025-05-04 09:39:11 590

原创重磅更新！Scitable包发布charls数据虚弱和虚弱指数提取功能，效率提升看得见！

但是也是相当复杂的，29个变量中，有些变量计算非常复杂，比如说认知功能，而且每一波的有些指标会变化，等于每个年份都要校对一遍，这个工作量想想都大，我也是校对变量校对到想吐了。在上图文章中，可以看到这篇文章虚弱有5个指标定义，是个2分类变量，在本篇文章中虚弱是个结局变量，也有部分文章把它用作观察变量，查看和死亡或者其他结局的关联。虚弱和虚弱指数自己手动算还是比较麻烦的，特别是虚弱指数，光找变量就有得你找的，但是用我写的函数可以很轻易做出来，下面我来演示一下，以2011年基线表为例子。

2025-04-25 15:18:38 525

原创八步法规范构建潜轨迹模型（GBTM）

目前潜轨迹模型（GBTM）属于比较好发文的，能发的文章分数也比较高，有些机构还开专门开了潜轨迹模型（GBTM）培训班，因为属于纵向分析，本公众号今后将陆续介绍它，本期以文章《Framework to construct and interpret latent class trajectory modelling》来介绍规范建立潜轨迹模型（GBTM）这种方法结合了潜变量模型和轨迹分析的优点，可以用来探索不同个体随时间变化的规律或趋势，并将这些个体分类到不同的潜类别中去。也许，考虑具有最低人口百分比的类别。

2025-04-22 09:08:48 622

原创 scitable包+sciml包手把手带你复现一篇8.5分charls机器学习文章

这是一篇去年的比较新的文章，我查了下大概8.5分，文章大概就是介绍一种指数，叫做：甘油三酯葡萄糖-腰身高比指数（cumulative_TyG_WHtR），研究甘油三酯葡萄糖-腰身高比指数和新发心血管疾病的关系，作者搞了个K值聚类分析来把cumulative_TyG_WHtR指数分类，研究分类后指标和心血管疾病关系，这样类似的指数还有很多，比如TYG，WHtR，TyG_WHtR，目前这是一个发文的方向，这样的指数，变一个结局变量，又可以继续搞一篇文章，很多类似文章层出不穷，nhanes也有很多，

2025-04-17 09:45:16 995

原创生存分析时时P值不显著？生存曲线交叉怎么办？ggscitable包完美复现顶刊（柳叶刀）landmark分析

作者使用了k-m曲线，发现两个支架的不良事件无明显区别，P=0.40, 但是作者发现在12个的时候，两条曲线还是分得比较开的，有可能在0-12个月这段时间，两条曲线时有区别的。数据变量很多，我解释几个我等下要用的，HBP：是否发生高血压，结局指标，AGE：年龄，是我们的协变量，SEX：性别，OCCU.NEW这个我也不知道时什么，反正是个2分类变量。我们可以看到在30岁这个位置，两条曲线还是分得比较开的，有可能在0-30岁这个区间两个支架的不良事件结局时有区别的，所以我们可以把节点设置为30。

2025-04-10 09:07:14 942

原创 ggscitable包scikm函数发布，新手小白也能绘制顶刊（NEJM）的生存曲线(Kaplan-Meier)

目前我在ggscitable包的基础上编写了scikm函数，这是一个挺强大的函数，有许多功能，还有一些功能待更新，我打算分层3章来介绍它，目前这章是是基础篇，比较简单，就不打算录制视频了，纯文字版。本章先介绍一些基本的绘图功能，慢慢深入，假设我想了解不同性别的生存率情况，data这里填入数据，X这里填入咱们的研究变量，必须是分层变量，y这里填入结局，time这里填入时间。三个分类也是一样的，换个X就行。#####新格兰风格,小图。##更改图例和图例位置。#####新格兰风格。

2025-04-07 09:02:36 373

原创 ggscitable包通过曲线拟合深度挖掘一个陌生数据库非线性关系

很多新手刚才是总是觉得自己没什么可以写的，自己不知道选什么题材进行分析，使用scitable包+ggscitable包后这个完全不用担心，选题多到你只会担心你写不完，写得不够快。刚才咱们定义的是结局变量，看哪个变量和结局又关系，我们也可以定义观察变量X变量，看哪个变量和X有关系。这个是个来自私人创建的医院内部数据库，我一个朋友的，变量我就不解释了，这个数据有141个变量，605个数据。这个数据中有个TYG指数（甘油三酯葡萄糖指数），假设我想看哪个结局和这个指数相关，前面的整理数据步骤都是一样的。

2025-04-02 17:03:15 568 1

原创 R语言对偏态换数据进行转换（对数、平方根、立方根）

我们进行研究的时候经常会遇见偏态数据，数据转换是统计分析和数据预处理中的一项基本技术。在 R 中实现和可视化最常见的数据转换：对数、平方根和立方根转换。参考文献：https://www.r-bloggers.com/2024/12/how-to-transform-data-in-r-log-square-root-cube-root/当您的数据集不满足统计分析所需的假设时（例如绘制限制立方样条或者曲线拟合不理想的时候），数据转换就变得必要。咱们可以看到上面两个数据都是偏态数据，下面进行数据转换。

2025-03-27 09:50:20 720

原创 R语言基于ggscitable包复现一篇3.5分的文章的连续变量交互效应（交互作用）的可视化图

交互作用效应(p for Interaction)在SCI文章中可以算是一个必杀技，几乎在高分的SCI中必出现，因为把人群分为亚组后再进行统计可以增强文章结果的可靠性，进行可视化后可以清晰的表明变量之间的关系。Death是结局变量，其他的都是一些协变量，假设我想研究年龄和死亡的关系，想知道肌酐和年龄有没有交互作用。默认的Y轴是log（P），如果你想表示为概率也可以转换，我们可以看到右边这个轴的概率明显不同了。下面绘制3D效果图，这个是你的电脑速度而定，我的电脑是有点慢，差不多要30秒。

2025-03-21 11:28:44 748

原创 R语言使用dietaryindex包计算nhanes饮食炎症指数

第一行是标签，第二个是记录次数，如果没有多次记录就默认是1次，sex是性别，age是年龄，后面都是一些维生素，食物或者微量元素的摄入量。SERV_DATA填入数据，RESPONDENTID填入ID，如果没有重复记录REPEATNUM这里填入1，之后看你收集了那个指标，对应录入就行。在既往文章中，我介绍了使用dietaryindex包膳食指数，有不少粉丝私信问如何计算炎症指数，这个其实挺简单的，今天简单介绍一下把。一句话代码，结果就出来啦，总的指标炎症指数和单独指标的炎症指数都出来啦，非常简单。

2025-03-18 09:29:43 909

原创 R语言手把手带你复现一篇8.5分的charls机器学习文章

这个是一个完整的独立的charls机器学习文章复现教程，，从数据下载到数据分析全流程，因为要照顾一些新手和文章的完整性，会从基线数据下载，多年数据整理合并开始说，可能会和前面得一些教程有点重合，这也是没办法的事，注意衡量取舍一下，别到时说我凑字数，凑文章，最后说明下我只是复现一个思路，不能解决你所有问题，只是开启思路，达到抛砖引玉的目的。下载和整理数据分成两个章节，1是下载2011年的基线数据，2.是把2013年、2015年，2018年、2020年的数据和2011年的数据进行合并。

2025-03-13 09:21:58 571

原创 scimap1.9版本charls地图包发布，增加了显示省名字和小图功能

我目前专门编写了一个scimp包，目前只有一个charlsmap函数，顾名思义，这个是一个专门用于绘制charls数据地图的函数，但并不是说它只能绘制charls地图，基本中国省市级地图都能绘制，目前此包已经省级到1.8版，增加了显示省名字和小图功能，CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查，旨在建设一个高质量的公共微观数据库，采集的信息涵盖社会经济状况和健康状况等多维度的信息，以满足老龄科学研究的需要。小图的位置，大小都是可以调整的，我这里简单调整一下。

2025-03-11 10:12:45 428

原创 R语言使用scitable包交互效应深度挖掘一个陌生数据库

我们知道男性不可能痛经的，但是男性喝酒可能尿酸又高，你的数据中要是男性过多的化就会对结果造成影响，因此，性别就是一个混杂因素，性别分层以后就能得到女性尿酸和痛经的关系，等于是个消除混杂的处理。做了交互效应分析以后，咱们发现两个问题，虽然"Q1432"和结局并无关联，但是再Q27278这个亚组，当Q27278等于0的时候，"Q1432"和结局是线性相关的，理论上有一个亚组相关就可以写一篇文章。这个是个来自私人创建的医院内部数据库，我一个朋友的，变量我就不解释了，这个数据有141个变量，605个数据。

2025-03-07 09:09:01 1167

原创一起来学真实世界研究（1）--简介+小例子

而我们通常的真实世界研究通常用的是观察性数据，非随机化，数据可能来自电子健康记录、登记数据、或者回顾性收集的数据，患者年龄性别等其他特征很难相似，观察变量X在两组见不会随机分配。倾向性评分用于消除混杂因素的影响，正确估计处理措施对结局的作用，主要有四种方法：倾向性评分匹配，倾向性评分分层，倾向性评分逆概率加权（IPTW）和倾向性评分调整。我这几天查看了一些真实世界研究的方法，其实不需要有复杂的统计学方法，大多数都是倾向评分匹配，逆概率加权，数据插补这类的，比如下面文章说的是：模拟随机临床试验,

2025-03-01 18:57:58 530

原创 scimp包1.7版发布，用于绘制charls加权地图

在文章《scimp包发布，轻松秒绘制charls数据文章中的地图》中，咱们已经介绍了scimp包绘制chalrs地图，但是由粉丝提出，地图要加入权重，不然人数太少了，不符合实际情况，我想了一下，确实如此，因此在1.7版加入了权重参数，下面我来演示一下。上图咱们可以看到，虽然按比例显示了吸烟患者的分布，但是一个省的吸烟人数才几百例，显然不符合实际情况，因此咱们可以给他加上一个权重。数据是我自己提取的charls2011年的基线表数据，我们可以看到有城市，和省的变量分布。这样就相对合理多了。

2025-02-24 11:58:40 358

原创 scimp包发布，轻松秒绘制charls数据文章中的地图

我目前专门编写了一个scimp包，目前只有一个charlsmap函数，顾名思义，这个是一个专门用于绘制charls数据地图的函数，但并不是说它只能绘制charls地图，基本中国省市级地图都能绘制，肯定没有其他的专业地图绘制包专业和功能详尽，但是可以快速出图，目的可以帮助新手小白快速出图，节省你的时间。假设我是有研究对象的，我想研究吸烟者在全国的分布，这里我要说一下，scimap包接受两种数据格式，一个时0和1格式，就是是否吸烟。Charlsmap函数的格式如下，data就是你的研究数据，x是研究变量。

2025-02-21 09:43:24 869

原创 ggscitble包发布，新手也能玩转广义可加混合模型（2）

这个数据是从网上搞来的，应该是个模拟数据，变量我也不懂是什么意思，但是不重要，x是我们的研究变量，y是结局变量，id是我们的随机效应项，和广义可加模型不同gamm需要指定type和id,因为type默认是gam模型，当年做gamm的时候需要指定一下，id这个随机效应项一定有，不然就会报错。咱们研究的是随着时间发展，癌症死亡数的变化特点，这里选了国家做随机项，表明参考了不同国家的死亡率，然后做了总体评估。最后可以得出结论，考虑了不同国家的情况，不管是有钱的还是没钱，随着时间推移，肿瘤死亡率增加。

2025-02-17 09:06:37 633

原创 ggscitble包1.3版发布-新手也能轻松玩转广义可加模型（1）

我写函数的第一准则就是要力求它的准确性，为此过年期间又把RCS和光滑样条的原理和公式都学习了一遍，还专门写了一篇RCS的原理，我见国内目前很少有人说RCS原理，唯一的一两个也说得不怎么对，如果感兴趣的人多，我也可以讲讲这方面内容。我们先来看看数据的构成，death：死亡人数 (per day)，pm10：大气污染物pm10的中位数值，pm25median，o3median：二氧化硫的中位数值，time：天数，这里就是我们的时间，tmpd：华氏温度，date：日期。公众号回复：体检数据，可以获得数据。

2025-02-12 14:48:20 832

原创 R语言ggdensity包绘制等高线

在R语言中，等高线主要用于可视化三维数据的二维表示，特别是地形图或是数学函数的图形。等高线连接具有相同数值的所有点，这类似于地图上的等高线连接具有相同海拔高度的地点。怎么看这个图呢，不同的颜色和阴影代表不同的概率水平。黑色区域表示50%的概率，越向外密度越低，可以直观地理解数据的分布情况和不同区域的概率密度。每条等高线代表一个恒定的高度，用户可以通过这些线条了解地形的起伏。数学函数可视化：对于复杂的多维数据集，等高线提供了一种方法来可视化两个变量之间的关系及其如何共同影响第三个变量。

2025-02-07 10:14:03 291

原创 R语言绘制有向无环图（DAG）

因为他们有一个共同的父母、吸烟和体重有关（在现实生活中，有可能是两者之间更直接的关系，但我们会忽略为简单起见）。然而，这条链条是间接的，至少就吸烟之间的关系而言心脏骤停。这种梳理和呈现是非常有意义的，因为它会指导你如何设计你的研究以及如何分析你的数据。有向无环图（Directed Acyclic Graph，简称DAG）是一种特殊的有向图，它由一系列顶点和有方向的边组成，其中不存在任何环路。上面两个只是比较初级的，用得不是很顺手，下面咱们来个自定义的：x导致y，a导致x, y导致a。

2025-02-02 09:24:39 971 2

原创 ggscitable包发布--一键生成1篇3.8分文章的亚组交互效应图

age表示年龄，pathsize表示病理肿瘤大小（厘米），lnpos表示腋窝淋巴结阳性，histgrad表示病理组织学等级，er表示雌激素受体状态，pr表示孕激素受体状态，status结局事件是否死亡，pathscat表示病理肿瘤大小类别（分组变量），ln_yesno表示是否有淋巴结肿大，time是生存时间，后面的agec是我们自己设定的，不用管它。这里我指出一下，函数默认是做有交互影响的结果，如果你不考虑交互影响，只是看每组的分类情况，我们可以关掉交互效应。所以考虑与否交互效应，结论还是稍微不同的。

2025-01-23 17:05:59 1160

原创相加交互效应函数发布—适用于逻辑回归、cox回归、glmm模型、gee模型

下面咱们正式进入今天的主题，scitable包支持逻辑回归，cox回归，广义线性混合模型（glmm），广义估计方程（gee）的相加交互模型计算，下面我一一演示一下。Education：教育程度，age:年龄，parity产次，induced：人流次数，case：是否不孕，这是结局指标，spontaneous：自然流产次数。看到这个你可能会说，这是什么呀，我知道你很懵逼，但是请你先别懵逼，我继续演示，等会再解释，绘制森林图。有一些变量是分类变量，我们需要把它转换一下，我人为把年龄分成3段，好方便演示。

2025-01-10 09:01:53 1669

原创手把手带你复现一篇6.2分charls纵向分析的文章

作者文章大概的介绍就是使用不同的燃料，比如煤啊，天然气啊，固体燃料等，对肺功能的影响，作者有两个结局指标第一个是是否合有肺病、第二个就是肺活量指标，作者使用了分析了横向关联分析，以及使用多年的数据做了纵向关联分析，charls要拿高分，最好横向分析和纵向分析一起做。纵向分析和我们平时的分析有什么不同，最主要得是带有时间参数，这样子不同的时间下就会有不同的Y或者不同的X，或者随着时间变化后X和Y都不同。好的，下面咱们进入正题，先看下作者是怎么分析的，看它的思路主要是看流程图。

2025-01-07 10:28:52 1569 3

原创 scitable包sciroc曲线发布,新手小白也能驾驭各种roc曲线绘制—内部验证/外部验证/重抽样roc等

scitable包是我自己编写的，集合众多函数的一个R包，目前升级到3.1版，升级了sciroc曲线发，这个函数是专门为了制作各种ROC曲线的而编写的，下面我来演示一下。Education：教育程度，age:年龄，parity产次，induced：人流次数，case：是否不孕，这是结局指标，spontaneous：自然流产次数。导入R包和数据, 我们使用人流后导致不孕的数据集(关注公众号后回复：不孕症，可以获得数据)，我们先导入看一下。重抽样ROC，这个一般在本数据集就可以了，

2025-01-04 09:47:08 247

原创 scitable包3.0版更新，增加了新的森林图绘制函数sciforest，用于一键生成森林图

sciforest函数依托于forestploter包，所以这个包必须安装。下面我来简单简单演示一下，scitable包3.0版更新，增加了新的森林图绘制函数sciforest，用于一键生成森林图。如果你比较熟悉森林图绘制，也可以自己做个模板，我这个只是演示用。有很多参数可以微调，比如我增加一个范围。先常规操作一下生成一个亚组数据。然后把模板加进去就可以了。

2024-12-31 09:11:47 463

原创 R语言6种将字符转成数字的方法，写在新年来临之际

好的，数据生成了，我们看到到time这一列的变量是w0,w1,w2,w4的字符变量，咱们想要把它转成数字0，1，2，4，应该怎么转换呢？咱们临床研究中，拿到数据后首先要对数据进行清洗，把数据变成咱们想要的格式，才能进行下一步分析，其中数据中的字符转成数字是个重要的内容，因为字符中常含有特殊符号，不利于分析，转成数字后才能更好进行分析。

2024-12-30 10:42:58 985

原创代码+视频，使用scitable包对charls数据快速挖掘

2019 年底到 2020 年初，新冠疫情在中国爆发，为及时记录新冠疫情对中国中老年人生活和健康的影响，在 2020 年的第 5 轮调查中增加采集了疫情相关的信息。CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查，旨在建设一个高质量的公共微观数据库，采集的信息涵盖社会经济状况和健康状况等多维度的信息，以满足老龄科学研究的需要。这个数据有36个变量，其中Frailty是结局变量，今天咱们就以Frailty为结局，看看那些变量和它有关联。提取整理好的数据和分类变量。咱们先把所有变量导出来。

2024-12-26 09:42:38 1489

原创复现一篇6.2分charls文章中的地图

提取数据方法就不介绍了，我的文章《CHARLS数据库系列教程（2）—数据清洗、拼接和整理（2）》已经详细介绍了咱们提取数据，这里要注意一下，研究的变量X是词条是：What is the main source of cooking fuel”，对应的编码是i022，慢性肺疾病的编码是：da007_5_，我们还要提取每年的肺活量数据，后面进行纵向分析，我们要取得是没有慢性肺病的患者，这里要排除一下。首先咱们是要对数据进行提取，因为后几年是随访数据，所以我主要是对2011年数据的患者进行提取并绘制地图。

2024-12-23 09:26:14 1348

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

SPSS主成分分析绘图操作

早产数据，可以用于文章中的统计学方法研究

2000年美国总统全国选举数据，可用于数据分析

美国芝加哥1987年至 2000年大气污染与死亡数据，可用于数据分析

美国芝加哥1987年至 2000年大气污染与死亡数据2（第二部分），可用于时间相关序列数据分析

体检数据，可用于进行文章中的数据分析

患者的体检数据2（第二部分），可以用于进行数据分析

原发性胆道胆管炎数据,可以用来做数据分析

nhanes插补数据，可以用于nhanes插补数据的分析

森林图数据，可以用于绘制森林图

纽约房价数据，可用于数据分析

自己提取的nhanes数据库

利用广义可加模型对分类数据进行曲线拟合代码

一步到位：手把手教你R语言竞争风险模型建模-列线图-校准曲线-K折验证-外部验证- 决策曲线

利用重抽样获取广义可加模型曲线的可信区间重抽样代码

SPSS中介效应分析插件（Process和mediate插件）

nomocox.zip

eicu数据库考试答案.rar

stata临床决策曲线包.rar

nomolog.zip

空空如也