
R语言
文章平均质量分 68
天桥下的卖艺者
4个R包的编写者。发布关于SPSS、R语言、stata等相关科研的文章。今后的方向聚焦于:1.机器学习和深度学习 2.各种模型算法研究 3.各种科研图形绘制 4.R语言编程和R包编写 5.数据挖掘
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
R语言两阶段设计分析NMMAPS数据温度对死亡率的影响
摘要:本文介绍了环境流行病学中两阶段分析法的应用,通过R语言实现温度与死亡率关系的多城市研究。首先利用dlnm包计算各城市温度效应系数,然后通过mixmeta包进行荟萃分析。结果显示高温与死亡率显著相关(p<0.05)。进一步分析发现人口规模是重要效应修饰因子,大城市温度上升导致的死亡风险更高(RR=1.4)。研究采用样条函数处理非线性关系,并可视化温度百分位与相对风险的关系曲线,为环境健康风险评估提供了方法学参考。原创 2025-08-07 09:24:30 · 228 阅读 · 0 评论 -
代码+视频,解决亚组分析报错和森林图添加字符
摘要:本文介绍了SCI文章中交互效应表格(表五)的重要性,通过亚组分析提升文章可信度和数据挖掘价值。文章包含R语言代码示例,展示了如何处理亚组分析中的常见错误(如变量转换和缺失值处理)以及森林图的字符添加技巧,包括调整格式、修改数字为字符等操作。视频教程和代码示例帮助读者掌握亚组分析的关键步骤,为高质量SCI论文撰写提供实用工具。原创 2025-08-04 09:09:32 · 198 阅读 · 0 评论 -
chrals.CTI函数发布,秒提charls数据CTI和累积CTI(cuCTI)
摘要:C反应性蛋白原甘油三酯葡萄糖指数(CTI)是一种结合胰岛素抵抗和炎症的新型指标,对癌症、恶病质和心脏病风险具有预测价值。本文介绍了使用R语言从CHARLS数据库提取CTI和累积CTI(cuCTI)的方法,通过chrals.CTI和chrals.cuCTI函数可分别计算2012年和2015年的CTI值,并生成累积指标。该指数可通过ggexplore函数进行数据挖掘分析与其他健康结局的关联。研究为利用大型队列数据开展代谢相关疾病研究提供了便捷工具。原创 2025-07-31 10:14:27 · 291 阅读 · 0 评论 -
空气污染导致虚弱?手把手带你复现一篇11分1区charls文章
CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。原创 2025-07-28 09:14:19 · 404 阅读 · 0 评论 -
nhanes和charls发文新指标生物年龄Biological Age (GOLD BioAge)
GOLD BioAge:新型生物年龄测量方法 GOLD BioAge是一种基于Gompertz定律的生物年龄算法,通过整合实际年龄和常规生物标志物来评估个体衰老程度。该指标能有效预测死亡风险和慢性疾病发病率,每增加1年差异,死亡风险提升13-15%。研究显示,高BioAgeDiff组(生物年龄与实际年龄差异大)的中老年人群生存概率显著降低。该算法已开发为R包scitable的chrals.bioAge函数,便于科研应用。初步分析表明,GOLD BioAge与多种健康指标存在显著关联,为衰老研究提供了新的量化原创 2025-07-24 09:53:22 · 621 阅读 · 0 评论 -
R语言进行二阶段工具变量回归(Instrumental Variables Regression)
工具变量回归(IV Regression)是解决回归分析中内生性问题的有效方法,通过引入与内生解释变量相关但与误差项无关的工具变量(如税收与香烟价格)。本文以AER包的香烟数据为例,演示了二阶段回归法:首先检验工具变量与价格的正相关性(R²=0.47),随后建立价格与消费量的负相关关系(弹性-1.08)。使用ivreg函数验证结果一致,证实价格每上涨1%会导致消费量减少约1.08%。该方法适用于存在遗漏变量或双向因果的场景,类似孟德尔随机化中的工具变量原理。原创 2025-07-22 09:25:31 · 365 阅读 · 0 评论 -
charls.ntlp函数发布,秒提血浆动脉粥样硬化指数 (AIP)等非传统脂质参数
血浆动脉粥样硬化指数(AIP)作为新型心血管风险指标受到关注。研究表明AIP与胰岛素抵抗、糖尿病存在非线性关系。本文提供了CHARLS数据库计算AIP的R语言代码,可同时提取6种非传统脂质参数。通过数据挖掘方法,研究者可快速探索AIP与其他健康指标的相关性,为相关研究提供简便的分析工具。文章还列举了AIP在糖尿病、动脉粥样硬化等领域的应用参考文献,为开展相关研究提供便利。原创 2025-07-17 09:11:30 · 921 阅读 · 0 评论 -
重叠加权(Overlap Weighting OW)在真实世界研究(仿RCT研究)的应用
摘要:真实世界研究(RWS)作为随机对照试验(RCT)的重要补充,通过重叠加权(OW)方法在非理想化场景中评估医疗干预效果。本文对比了四种协变量调整方法(未调整、倾向评分匹配、逆概率加权和重叠加权),发现重叠加权在平衡组间差异(SMD≈0)和保留样本量方面表现最优,其权重算法稳定可靠。通过R语言实例分析,验证了OW方法在模拟RCT三大核心属性(目标人群相关性、协变量平衡性和估计精确性)上的优势,与JAMA文献结论一致,为真实世界研究提供了高效的分析工具。(150字)原创 2025-07-14 09:20:32 · 693 阅读 · 1 评论 -
sciml包支持向量机函数scisvm发布,轻松完成支持向量机分析
本文介绍了基于R语言sciml包中scisvm函数进行支持向量机(SVM)分析的完整流程。主要内容包括:数据准备与预处理(缺失值处理、分类变量转换)、数据集划分(7:3比例)、SVM模型构建与评估(ROC曲线绘制、SHAP特征重要性分析)。文章还展示了多模型比较(SVM、随机森林、逻辑回归)的ROC分析和决策曲线评估,以及多分类SVM的实现方法。该整合包简化了SVM分析过程,支持二分类和多分类任务,为机器学习建模提供了便捷工具。原创 2025-07-10 09:01:20 · 328 阅读 · 0 评论 -
手把手带你完美复现一篇10分一区双组交互效应森林图
本文介绍如何绘制双组交互森林图,用于展示亚组交互效应分析结果。通过复现一篇10分SCI文章中的双组森林图案例,演示了调整模型前后的交互效应可视化方法。原创 2025-07-08 11:49:32 · 413 阅读 · 0 评论 -
手把手带你复现一篇20分的CLHLS数据植物饮食指数文章
摘要:本研究基于北京大学"中国老年健康调查(CLHLS)"数据(1998-2018年),分析了植物性饮食模式与中国老年人死亡率的关系。研究采用健康植物性饮食指数(hPDI)、不健康植物性饮食指数(uPDI)和总体植物性饮食指数(PDI)评估65岁以上老年人(样本量8,780人)的饮食模式。分析方法包括基线特征比较、Cox回归模型和限制性立方样条曲线(RCS)。结果显示,较高的hPDI评分与显著降低的死亡风险相关(P<0.001),而uPDI评分与死亡风险呈非线性关系(P<0.原创 2025-07-03 09:04:58 · 827 阅读 · 0 评论 -
聊下charls纵向数据的特点和基线表绘制
摘要:本文通过两个实际案例解释了宽数据转长数据时数据量翻倍的现象。在第一个案例中,将3种燃料类型数据合并后,数据量变为原来的3倍;第二个案例将4个年份的衰弱指数合并,数据量变为4倍。文章强调,纵向数据(面板数据)因包含多个时间点或类型,必然导致数据量增加。基线表的绘制方式取决于研究目的,可参考相关文献选择合适的数据结构。通过R代码演示了数据转换过程,直观展示了单个ID数据如何扩展为多行记录。原创 2025-07-01 09:35:28 · 536 阅读 · 0 评论 -
R语言使用nonrandom包进行倾向评分匹配
倾向评分匹配(Propensity Score Matching,简称PSM)是一种统计学方法,用于处理观察研究(Observational Study)的数据,在SCI文章中应用非常广泛。原创 2025-06-26 12:01:39 · 526 阅读 · 0 评论 -
sciclhls包发布,秒提CLHLS数据中的健康植物性饮食指数 (hPDI) 和不健康植物性饮食指数 (uPDI)
北京大学"中国老年健康调查"(CLHLS)是一项覆盖全国23省市的长期追踪研究,1998-2018年间完成8次入户调查,累计访问11.3万人次,重点关注高龄老人健康。研究发现饮食模式对老年健康有重要影响,植物性饮食(如地中海饮食)对糖尿病、心血管疾病等具有保护作用。研究者开发了专用R包sciclhls,包含CLHLS.hPDI和CLHLS.UPDI函数,可从CLHLS数据库便捷提取健康/不健康植物性饮食指数,为后续老年健康饮食研究提供分析工具。该研究为探索饮食模式与老年健康关系提供了重要原创 2025-06-23 10:03:00 · 393 阅读 · 0 评论 -
charlsCMI函数发布,秒提取charls数据心脏代谢指数(CMI)
心脏代谢指数(CMI)是反映肥胖和血脂的新型指标,研究表明其与糖尿病及多种慢性病显著相关。本文介绍了CMI的计算方法,并利用CHARLS数据开发了专用提取函数charlsCMI,通过ggexplore工具快速挖掘CMI与其他变量的关联性。结果显示CMI与TYG、高血压等代谢指标显著相关(P<0.05),为研究者提供了高效的数据分析途径。该工具简化了CMI相关研究流程,有助于发现潜在的健康关联因素。原创 2025-06-19 09:15:52 · 509 阅读 · 0 评论 -
复现一篇16分的seer数据库文章:列线图风险评分+最佳阈值风险分层+生存分析曲线
摘要:列线图(诺莫图)是一种基于多变量回归分析的预测工具,通过直观的图形化评分系统预测临床结局或疾病风险。近年来在高质量临床研究中广泛应用,尤其在SEER数据库分析中。本文以一篇16分SCI论文为例,展示了如何使用列线图建立风险预测模型(包括变量筛选、模型构建和可视化),并通过最佳阈值划分低、中、高风险组,最终用KM曲线验证分层效果。分析使用R语言实现,涵盖逐步回归、风险分数计算、截点优化和生存分析全流程,为临床预测模型研究提供了可复现的方法学框架。文中还探讨了限制性立方样条(RCS)等替代方法的适用性。原创 2025-06-16 09:30:20 · 777 阅读 · 0 评论 -
中国老年健康调查(CLHLS)数据挖掘教程(1)--CLHLS简介和数据下载
北京大学主持的"中国老年健康调查(CLHLS)"是一项覆盖全国23个省市的长期追踪研究,1998-2018年间完成8次调查,累计入户访问11.3万人次,其中80岁以上高龄老人占67.4%。研究收集了老人健康、认知、社会参与及照料需求等丰富数据,并包含2.89万死亡老人临终前状况。调查数据已通过开放平台免费共享,被1万多位学者使用,产出大量学术成果。该数据集以sav格式存储,包含8次调查数据,采用特定编码系统标记不同变量类型和缺失值。作为研究中国高龄老人健康的重要资源,该调查特别适合膳食模原创 2025-06-13 11:38:47 · 1564 阅读 · 0 评论 -
Scitable包+sciml包手把手带你复现一篇5分charls潜轨迹模型+机器学习文章
今天咱们来介绍一下一篇5分的潜轨迹文章+随机森林charls文章复现,文章的名字叫Predictive analysis of bullying victimization trajectory in a Chinese early adolescent cohort based on machine learning(基于机器学习的中国青少年早期队列欺凌受害轨迹预测分析)原创 2025-06-10 09:56:02 · 938 阅读 · 0 评论 -
sciml包scikfoldcv函数轻松实现机器学习模型进行10折交叉验证
我们在建立数据模型后通常希望在外部数据验证模型的检验能力。然而当没有外部数据可以验证的时候,交叉验证也不失为一种方法。交叉验验证(交叉验证,CV)则是一种评估模型泛化能力的方法,广泛应用中于数证据采挖掘和机器学习领域,在交叉验证通常将数据集分为两部分,一部分为训练集,用于建立预测模型;另一部分为测试集,用于测试该模型的泛化能力。原创 2025-06-05 09:08:52 · 380 阅读 · 0 评论 -
R语言使用随机过采样(Random Oversampling)平衡数据集
摘要:随机过采样是一种处理类别不平衡的机器学习技术,通过复制少数类样本来平衡数据集。本文介绍了其优缺点:优点是简单易行且不改变原始数据分布,缺点可能引发过拟合。通过R语言演示了使用ROSE包实现随机过采样的过程,从生成不平衡数据到平衡处理,并可视化对比了处理前后的数据分布差异。该方法适用于逻辑回归等模型,但需注意可能导致的预测偏差,建议配合敏感性分析使用。文章还预告后续将介绍更高级的SMOTE合成采样方法。(149字)原创 2025-06-03 09:02:59 · 728 阅读 · 0 评论 -
sciml包随机森立函数scirandomForest发布,轻松完成随机森林分析
本文介绍了sciml包中集成的随机森林分析方法scirandomForest。该方法基于randomForest包进行封装,可一键生成随机森林模型及其可视化结果,包括变量重要性排序、SHAP解释、ROC曲线和决策曲线等。文章通过胆管炎数据演示了该函数的使用流程,展示了模型训练、结果解读和验证集评估的全过程。该工具包还支持与其他模型(如逻辑回归)的性能比较,为机器学习分析提供了便捷的解决方案。未来计划扩展支持更多机器学习算法。该方法简化了随机森林分析流程,有助于提高科研效率和结果可解释性。原创 2025-05-30 09:31:14 · 426 阅读 · 0 评论 -
R语言randomForestExplainer包进行随机森林分析
本文介绍了randomForestExplainer包在随机森林分析中的应用。该包作为randomForest的辅助工具,可帮助用户更直观地理解模型结果。文章以波士顿房价数据为例,演示了如何构建随机森林模型、计算变量最小深度和重要性指标,并通过可视化展示关键变量。重点讲解了缺失值处理方法和多种重要性评估指标的选择策略,最后展示了如何提取最重要的预测变量。该包提供了丰富的可视化功能,有助于深入理解随机森林模型的变量贡献。原创 2025-05-26 09:05:39 · 907 阅读 · 0 评论 -
scitable包手把手带你复现一篇一区8.5分charls潜轨迹文章
本次复现一篇charls的文章名字《社交和智力活动与我国中老年人群认知轨迹的关联:一项全国代表性队列研究》Associations between social and intellectual activities with cognitive trajectories in Chinese middle-aged and older adults: a nationally representative cohort study原创 2025-05-20 09:20:03 · 811 阅读 · 0 评论 -
scimp包2.2版发布,增加charls地图拼音省名和图例百分比表示
CHARLS(中国健康与养老追踪调查)是一项针对中国大陆45岁及以上人群的全国性追踪调查,旨在构建一个高质量的公共微观数据库,涵盖社会经济和健康状况等多维度信息,以支持老龄科学研究。该调查参照国际老龄研究标准,如美国的HRS,确保数据的国际可比性。自2011年基线调查以来,已进行了多轮追踪调查,并在2020年增加了新冠疫情相关信息的采集。为便于数据可视化,开发了scimp包中的charlsmap函数,支持快速绘制中国省市级地图,并提供了多种自定义选项,如省名拼音显示、比例调整、图例标题修改及多颜色配置,帮助原创 2025-05-14 09:03:24 · 514 阅读 · 0 评论 -
Scitable包+ggscitable包手把手带你复现一篇3.8分charls潜轨迹模型(GBTM)文章
本文复现了《固体烹饪燃料使用与衰弱轨迹之间的关联:来自中国全国队列的结果》一文的研究,探讨了固体燃料使用与衰弱轨迹之间的关系。研究基于中国全国队列数据,通过潜轨迹模型(GBTM)分析虚弱指数的变化轨迹,并将其分为四类:低水平组1、低水平组2、快速升高组和缓慢升高组。研究结果显示,使用固体燃料与虚弱指数的快速增长显著相关,而清洁能源的使用则与缓慢增长相关。复现过程中,作者使用了R语言进行数据处理和模型拟合,并通过基线表和逻辑回归模型验证了研究结果。复现结果与原研究基本一致,进一步支持了固体燃料使用对健康的负面原创 2025-05-12 09:06:52 · 1061 阅读 · 0 评论 -
Scitable包charlscognition函数发布,秒提取charls数据中的认知功能(痴呆)数据
先提取2011年的,要先生成2011年数据,其实主要是要demographic_background,health_status_and_functioning,health_care_and_insurance这三个,我这里直接沿用既往代码了。CHARLS数据中有个变量就是认知功能(痴呆)的评分,再医学和社会学很多文章用得到,但是这个指标需要手工提取,目前我编写了charlscognition函数,可以很方便的提取出认知功能(痴呆)的评分。可以提取2011-2018年的认知评分数据。原创 2025-05-08 08:48:24 · 544 阅读 · 0 评论 -
R语言traj包进行潜轨迹分析
这种方法结合了潜变量模型和轨迹分析的优点,可以用来探索不同个体随时间变化的规律或趋势,并将这些个体分类到不同的潜类别中去。目前潜轨迹模型(GBTM)属于比较好发文的,能发的文章分数也比较高,有些机构还开专门开了潜轨迹模型(GBTM)培训班,既往咱们已经介绍额如何使用lcmm包构建潜轨迹模型,今天咱们来介绍traj包进行潜轨迹分析。例如,在医学研究中,它可以用来分析患者在接受某种治疗后的恢复过程,识别出不同的恢复模式以及与之相关的因素。咱们先导入R包和数据,数据使用R包自带的trajdata数据。原创 2025-05-04 09:39:11 · 838 阅读 · 0 评论 -
重磅更新!Scitable包发布charls数据虚弱和虚弱指数提取功能,效率提升看得见!
但是也是相当复杂的,29个变量中,有些变量计算非常复杂,比如说认知功能,而且每一波的有些指标会变化,等于每个年份都要校对一遍,这个工作量想想都大,我也是校对变量校对到想吐了。在上图文章中,可以看到这篇文章虚弱有5个指标定义,是个2分类变量,在本篇文章中虚弱是个结局变量,也有部分文章把它用作观察变量,查看和死亡或者其他结局的关联。虚弱和虚弱指数自己手动算还是比较麻烦的,特别是虚弱指数,光找变量就有得你找的,但是用我写的函数可以很轻易做出来,下面我来演示一下,以2011年基线表为例子。原创 2025-04-25 15:18:38 · 806 阅读 · 0 评论 -
八步法规范构建潜轨迹模型(GBTM)
目前潜轨迹模型(GBTM)属于比较好发文的,能发的文章分数也比较高,有些机构还开专门开了潜轨迹模型(GBTM)培训班,因为属于纵向分析,本公众号今后将陆续介绍它,本期以文章《Framework to construct and interpret latent class trajectory modelling》来介绍规范建立潜轨迹模型(GBTM)这种方法结合了潜变量模型和轨迹分析的优点,可以用来探索不同个体随时间变化的规律或趋势,并将这些个体分类到不同的潜类别中去。也许,考虑具有最低人口百分比的类别。原创 2025-04-22 09:08:48 · 1015 阅读 · 0 评论 -
scitable包+sciml包手把手带你复现一篇8.5分charls机器学习文章
这是一篇去年的比较新的文章,我查了下大概8.5分,文章大概就是介绍一种指数,叫做:甘油三酯葡萄糖-腰身高比指数(cumulative_TyG_WHtR),研究甘油三酯葡萄糖-腰身高比指数和新发心血管疾病的关系,作者搞了个K值聚类分析来把cumulative_TyG_WHtR指数分类,研究分类后指标和心血管疾病关系,这样类似的指数还有很多,比如TYG,WHtR,TyG_WHtR,目前这是一个发文的方向,这样的指数,变一个结局变量,又可以继续搞一篇文章,很多类似文章层出不穷,nhanes也有很多,原创 2025-04-17 09:45:16 · 1036 阅读 · 0 评论 -
生存分析时时P值不显著?生存曲线交叉怎么办?ggscitable包完美复现顶刊(柳叶刀)landmark分析
作者使用了k-m曲线,发现两个支架的不良事件无明显区别,P=0.40, 但是作者发现在12个的时候,两条曲线还是分得比较开的,有可能在0-12个月这段时间,两条曲线时有区别的。数据变量很多,我解释几个我等下要用的,HBP:是否发生高血压,结局指标,AGE:年龄,是我们的协变量,SEX:性别,OCCU.NEW这个我也不知道时什么,反正是个2分类变量。我们可以看到在30岁这个位置,两条曲线还是分得比较开的,有可能在0-30岁这个区间两个支架的不良事件结局时有区别的,所以我们可以把节点设置为30。原创 2025-04-10 09:07:14 · 1153 阅读 · 0 评论 -
ggscitable包scikm函数发布,新手小白也能绘制顶刊(NEJM)的生存曲线(Kaplan-Meier)
目前我在ggscitable包的基础上编写了scikm函数,这是一个挺强大的函数,有许多功能,还有一些功能待更新,我打算分层3章来介绍它,目前这章是是基础篇,比较简单,就不打算录制视频了,纯文字版。本章先介绍一些基本的绘图功能,慢慢深入,假设我想了解不同性别的生存率情况,data这里填入数据,X这里填入咱们的研究变量,必须是分层变量,y这里填入结局,time这里填入时间。三个分类也是一样的,换个X就行。#####新格兰风格,小图。##更改图例和图例位置。#####新格兰风格。原创 2025-04-07 09:02:36 · 421 阅读 · 0 评论 -
ggscitable包通过曲线拟合深度挖掘一个陌生数据库非线性关系
很多新手刚才是总是觉得自己没什么可以写的,自己不知道选什么题材进行分析,使用scitable包+ggscitable包后这个完全不用担心,选题多到你只会担心你写不完,写得不够快。刚才咱们定义的是结局变量,看哪个变量和结局又关系,我们也可以定义观察变量X变量,看哪个变量和X有关系。这个是个来自私人创建的医院内部数据库,我一个朋友的,变量我就不解释了,这个数据有141个变量,605个数据。这个数据中有个TYG指数(甘油三酯葡萄糖指数),假设我想看哪个结局和这个指数相关,前面的整理数据步骤都是一样的。原创 2025-04-02 17:03:15 · 589 阅读 · 0 评论 -
R语言对偏态换数据进行转换(对数、平方根、立方根)
我们进行研究的时候经常会遇见偏态数据,数据转换是统计分析和数据预处理中的一项基本技术。在 R 中实现和可视化最常见的数据转换:对数、平方根和立方根转换。参考文献:https://www.r-bloggers.com/2024/12/how-to-transform-data-in-r-log-square-root-cube-root/当您的数据集不满足统计分析所需的假设时(例如绘制限制立方样条或者曲线拟合不理想的时候),数据转换就变得必要。咱们可以看到上面两个数据都是偏态数据,下面进行数据转换。原创 2025-03-27 09:50:20 · 835 阅读 · 0 评论 -
R语言基于ggscitable包复现一篇3.5分的文章的连续变量交互效应(交互作用)的可视化图
交互作用效应(p for Interaction)在SCI文章中可以算是一个必杀技,几乎在高分的SCI中必出现,因为把人群分为亚组后再进行统计可以增强文章结果的可靠性,进行可视化后可以清晰的表明变量之间的关系。Death是结局变量,其他的都是一些协变量,假设我想研究年龄和死亡的关系,想知道肌酐和年龄有没有交互作用。默认的Y轴是log(P),如果你想表示为概率也可以转换,我们可以看到右边这个轴的概率明显不同了。下面绘制3D效果图,这个是你的电脑速度而定,我的电脑是有点慢,差不多要30秒。原创 2025-03-21 11:28:44 · 829 阅读 · 0 评论 -
R语言使用dietaryindex包计算nhanes饮食炎症指数
第一行是标签,第二个是记录次数,如果没有多次记录就默认是1次,sex是性别,age是年龄,后面都是一些维生素,食物或者微量元素的摄入量。SERV_DATA填入数据,RESPONDENTID填入ID,如果没有重复记录REPEATNUM这里填入1,之后看你收集了那个指标,对应录入就行。在既往文章中,我介绍了使用dietaryindex包膳食指数,有不少粉丝私信问如何计算炎症指数,这个其实挺简单的,今天简单介绍一下把。一句话代码,结果就出来啦,总的指标炎症指数和单独指标的炎症指数都出来啦,非常简单。原创 2025-03-18 09:29:43 · 1239 阅读 · 0 评论 -
R语言手把手带你复现一篇8.5分的charls机器学习文章
这个是一个完整的独立的charls机器学习文章复现教程,,从数据下载到数据分析全流程,因为要照顾一些新手和文章的完整性,会从基线数据下载,多年数据整理合并开始说,可能会和前面得一些教程有点重合,这也是没办法的事,注意衡量取舍一下,别到时说我凑字数,凑文章,最后说明下我只是复现一个思路,不能解决你所有问题,只是开启思路,达到抛砖引玉的目的。下载和整理数据分成两个章节,1是下载2011年的基线数据,2.是把2013年、2015年,2018年、2020年的数据和2011年的数据进行合并。原创 2025-03-13 09:21:58 · 790 阅读 · 0 评论 -
scimap1.9版本charls地图包发布,增加了显示省名字和小图功能
我目前专门编写了一个scimp包,目前只有一个charlsmap函数,顾名思义,这个是一个专门用于绘制charls数据地图的函数,但并不是说它只能绘制charls地图,基本中国省市级地图都能绘制,目前此包已经省级到1.8版,增加了显示省名字和小图功能,CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。小图的位置,大小都是可以调整的,我这里简单调整一下。原创 2025-03-11 10:12:45 · 508 阅读 · 0 评论 -
R语言使用scitable包交互效应深度挖掘一个陌生数据库
我们知道男性不可能痛经的,但是男性喝酒可能尿酸又高,你的数据中要是男性过多的化就会对结果造成影响,因此,性别就是一个混杂因素,性别分层以后就能得到女性尿酸和痛经的关系,等于是个消除混杂的处理。做了交互效应分析以后,咱们发现两个问题,虽然"Q1432"和结局并无关联,但是再Q27278这个亚组,当Q27278等于0的时候,"Q1432"和结局是线性相关的,理论上有一个亚组相关就可以写一篇文章。这个是个来自私人创建的医院内部数据库,我一个朋友的,变量我就不解释了,这个数据有141个变量,605个数据。原创 2025-03-07 09:09:01 · 1205 阅读 · 0 评论 -
一起来学真实世界研究(1)--简介+小例子
而我们通常的真实世界研究通常用的是观察性数据,非随机化,数据可能来自电子健康记录、登记数据、或者回顾性收集的数据,患者年龄性别等其他特征很难相似,观察变量X在两组见不会随机分配。倾向性评分用于消除混杂因素的影响,正确估计处理措施对结局的作用,主要有四种方法:倾向性评分匹配,倾向性评分分层,倾向性评分逆概率加权(IPTW)和倾向性评分调整。我这几天查看了一些真实世界研究的方法,其实不需要有复杂的统计学方法,大多数都是倾向评分匹配,逆概率加权,数据插补这类的,比如下面文章说的是:模拟随机临床试验,原创 2025-03-01 18:57:58 · 616 阅读 · 0 评论