
用R探索医药数据科学

文章平均质量分 92
数据分析与人工智能领域始终需要一种得力的工具。我们以 R 语言讲义为基础重新构建了这份图文课程,其内容比常规的纸质版教科书更为丰富,并且会定期更新。欢迎大家踊跃订阅!
优惠券已抵扣
余额抵扣
还需支付
¥399.90
¥499.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
R科学与人工智能
大家好,我是 Dr.Xie!
DAT 是 Data Science and Artificial Intelligence Times(数据科学与人工智能时代)的缩写,代表着我们团队专注于探索数据科学与人工智能领域的前沿技术与实际应用。本频道前身为 DAT|数据科学和人工智能兴趣组,创立之初为师生提供学习与交流资源。在突破 1 万关注后,正式更名为 DAT|R科学与人工智能,更加聚焦于 R语言在数据科学中的核心应用,涵盖数据清理、建模、可视化和人工智能的实际应用等内容。
展开
-
《用R探索医药数据科学》学习路径(持续更新,点击查阅相关文章)
市面上的 R 语言培训班和书籍(包括网络上的文章或视频),由于受限于培训时间或书籍篇幅,往往难以深入探讨 R 语言在数据科学或人工智能中的具体应用场景,内容泛泛而谈,最终无法真正解决实际工作中的问题。同时,它们也缺乏针对医药领域的深度结合与讨论。为了解决这些痛点,我们推出了《用 R 探索医药数据科学》专栏。该专栏将持续更新,不仅为您提供系统化的学习内容,更致力于成为您掌握最新、最全医药数据科学技术的得力助手。原创 2024-11-18 06:22:40 · 6108 阅读 · 27 评论 -
9篇1章3节:在 RStudio 中无插件使用 DeepSeek(进阶篇)
本文继续介绍如何在 R 中调用 DeepSeek 模型,包括封装调用过程、设置模型角色、实现上下文记忆等功能,以提升多轮对话的连贯性和准确性。原创 2025-04-21 21:25:27 · 1043 阅读 · 0 评论 -
9篇1章2节:在 RStudio 中无插件使用 DeepSeek(基本篇)
DeepSeek 不仅支持自然语言对话、R 语言及 Python 编程辅助,还可用于科研写作、多轮问答和自定义角色模拟,其开放接口及稳定响应性能为数据科学与人工智能研究人员提供了全新的高效工具链。在实际应用中,DeepSeek 支持通过 API 接口与 R 语言程序实现无缝对接。用户仅需完成账户注册、获取 API 密钥,并借助 httr 和 jsonlite 等 R 语言常用库,即可高效构建自动问答系统或科研辅助对话接口。原创 2025-04-21 10:55:57 · 661 阅读 · 0 评论 -
9篇1章1节:认识生成式人工智能与生成式代码的优势和局限
虽然生成式人工智能在R语言学习中具有诸多优势,但也存在一些局限性和挑战。首先,生成式AI生成的代码虽然通常是有效的,但仍有可能出现语法错误或逻辑问题,特别是在复杂的编程场景中。因此,学习者仍需要具备一定的编程基础和调试能力。原创 2025-04-16 10:30:10 · 761 阅读 · 0 评论 -
8篇2章5节:GBD 数据库的全球疾病负担死亡概率可视化演示
本文以GBD数据库中的全球数据为例,使用R语言中的tidyverse和patchwork包,通过折线图与堆叠柱状图,对各类疾病死亡概率的变化进行可视化分析。本文是帮助大家快速了解不同疾病随时间变化的死亡风险,并探索疾病间的相对贡献。我们将详细讲解数据处理、图形绘制以及图表美化的完整流程。原创 2025-04-28 06:42:08 · 204 阅读 · 0 评论 -
8篇2章4节:GBD 数据库的数据深度解读(二)
GBD数据结构设计的优势在于其全面和系统性:它覆盖了全球绝大多数国家和地区(含多国分省估计),整合了传染病、非传染病、伤害和风险因素的健康指标,对不同年龄、性别均提供细分估计。这种层级化、多指标的框架便于比较和汇总,使政策制定者能够在同一平台下比较各健康问题的重要性和趋势。原创 2025-04-28 06:41:19 · 352 阅读 · 0 评论 -
8篇2章3节:GBD 数据库的数据深度解读(一)
GBD 数据库每年更新,反映最新的疾病趋势和健康挑战,例如 2024 年 5 月发布的 GBD 2021 数据集,涵盖了截至 2021 年的全球疾病负担数据。原创 2025-04-28 06:40:00 · 478 阅读 · 0 评论 -
8篇2章2节:GBD 数据库的数据申请详解
无论您是初入公共卫生领域的学生、资深的科研工作者,还是政策决策者,GBD数据库都将成为您数据分析与决策支持中不可或缺的重要工具。原创 2025-04-16 17:41:00 · 625 阅读 · 0 评论 -
8篇2章1节:认识全球疾病负担数据库 GBD
全球疾病负担数据库(GBD)是一项全面的区域性和全球性疾病负担研究项目,用于评估主要疾病、伤害和风险因素导致的死亡率和残疾情况。全球疾病负担研究是来自 160 多个国家的 12000 多名研究人员的合作成果。在首席研究员克里斯托弗・J・L・默里的领导下,全球疾病负担研究的总部位于华盛顿大学健康指标与评估研究所(IHME),并由比尔及梅琳达・盖茨基金会资助。原创 2025-04-11 12:09:23 · 640 阅读 · 0 评论 -
8篇1章15节:快速获取 NHANES 特定的表格信息和变量信息
无论是人口统计数据、饮食数据、体检数据,还是实验室数据和问卷数据,NHANES数据集都为公共卫生、营养学、流行病学等领域的研究提供了宝贵的资源。在分析过程中,了解每个表格中的变量内容是至关重要的,这有助于研究人员在使用数据时能够更准确地提取、分析和解释相关的健康信息。原创 2025-01-23 18:29:49 · 529 阅读 · 0 评论 -
8篇1章14节:下载 NHANES 的数据清单、搜索表格和表格里面的变量汇总
R语言为NHANES数据的获取、搜索和汇总提供了强有力的工具,帮助研究人员快速上手并深入分析数据。通过这些函数,用户可以更高效地进行数据处理,发现潜在的健康问题,为公共卫生研究和决策提供数据支持。原创 2025-01-21 18:11:28 · 316 阅读 · 0 评论 -
8篇1章13节:根据关键词检索NHANES变量和得到相关信息,并且通过指定URL直接下载数据
总的来说,利用灵活的关键词搜索功能和方便的数据下载方法,研究人员能够从庞大的NHANES数据库中迅速筛选出符合研究需求的变量,确保数据分析的准确性和及时性。尤其是在面对不同年份和研究主题时,通过合理设定搜索条件,可以避免无关数据的干扰,提高研究的针对性与效率。而通过直接从指定URL地址下载数据,可以确保数据的最新版本被准确获取,从而为进一步的公共健康分析提供可靠依据。原创 2025-01-21 18:09:43 · 630 阅读 · 0 评论 -
8篇1章12节:如何直接显示NHANES某个变量的代码本
大家可以高效地获取变量的背景信息,避免因数据误解而导致的分析错误。希望本文对您在NHANES数据分析中的工作提供有益的帮助,助力您的研究工作取得更高效和准确的成果。原创 2025-01-21 13:28:49 · 303 阅读 · 0 评论 -
8篇1章11节:2025年后如何使用扩展包访问、下载和分析 NHANES 数据
随着2025年NHANES数据下载链接的改变,许多依赖旧链接的R扩展包不再能够使用,但这并不意味着访问NHANES数据变得更加困难。通过使用新的扩展包,大家仍然可以方便地访问和分析NHANES数据。理解这些变化并及时调整使用方法,将有助于确保数据分析工作不受影响,同时也能提升数据分析的效率和灵活性。原创 2025-01-21 08:56:12 · 361 阅读 · 0 评论 -
8篇1章10节:如何解决 NHANES 数据合并所遇原表差异问题
我们系统性地解决了 NHANES 数据合并过程中遇到的列名差异和数据缺失问题。从对差异的分析到自定义函数的设计,再到使用高效的 R 工具,每一步都在实践中提高了数据处理的效率和准确性。最终,我们能够成功地将多个周期的 NHANES 数据整合在一起,并准确提取感兴趣的变量,保证了后续分析的顺利进行。原创 2024-12-30 11:18:32 · 633 阅读 · 0 评论 -
8篇1章9节:一步一步构建高效读取NHANES数据的自定义函数
通过本文,我们完成了一个高效的自定义函数,能够快速下载并读取NHANES数据。希望本篇文章不仅帮助您掌握NHANES数据的快速读取方法,更激发您对R语言编程和数据处理的兴趣,为您的科研工作带来更多便利。原创 2024-12-27 20:41:53 · 325 阅读 · 0 评论 -
8篇1章8节:复现NHANES的美国成人抑郁症患病率研究(下)
通过R语言的统计方法,尤其是svyttest函数的应用,我们能够在复杂抽样设计下进行有效的数据分析,为更好地理解和应对抑郁症问题提供科学依据。原创 2024-12-25 12:48:34 · 366 阅读 · 0 评论 -
8篇1章7节:复现NHANES的美国成人抑郁症患病率研究(中)
通过对 NHANES 数据的全面分析,我们成功计算并呈现了美国成人抑郁症患病率的总体水平及其在人群中的分布差异。利用自定义函数getSummary提高了数据处理的效率,而统计检验的加入进一步验证了性别间差异的显著性。本节分析表明,抑郁症患病率在性别和年龄组上存在显著差异,这与以往研究的结果相符,为公共卫生干预策略的制定提供了科学依据。原创 2024-12-25 11:59:32 · 381 阅读 · 0 评论 -
8篇1章6节:复现NHANES的美国成人抑郁症患病率研究(上)
通过对NHANES数据的复现分析,我们不仅成功计算了美国20岁及以上成人总体和分组的抑郁症患病率,还验证了复杂抽样设计在健康数据分析中的重要性。这一过程充分展示了R语言在数据处理、统计分析的强大能力。原创 2024-12-24 13:05:41 · 412 阅读 · 0 评论 -
8篇1章5节:处理NHANES数据的options和svydesign函数
复杂抽样设计数据的处理需要精确地考虑抽样结构、权重、分层和聚类等因素。通过R语言中的survey包,我们可以便捷地定义复杂的抽样设计,并使用泰勒级数线性化等方法进行方差估计。原创 2024-12-23 14:32:07 · 374 阅读 · 0 评论 -
8篇1章4节:NHANES的抽样权重、方差估计和估计值评估
通过对 NHANES 数据抽样权重和估计值可靠性评估的详细剖析,本文展示了复杂抽样设计下的统计分析方法与实践要点。从抽样程序与权重计算到方差估计与估计值评估,每一步都对最终结果的科学性和适用性至关重要。原创 2024-12-23 06:58:11 · 1024 阅读 · 0 评论 -
8篇1章3节:NHANES数据的下载、读取、追加和合并
通过本文的讲解,我们学习了如何使用R语言从NHANES官方网站下载数据,并完成数据追加和数据合并的过程。这是数据分析中的一个重要步骤,为后续的统计分析和模型构建奠定了基础。原创 2024-12-23 06:57:30 · 697 阅读 · 0 评论 -
8篇1章2节:下载NHANES数据并使用R进行读取
通过以上方法,我们能够灵活地获取和处理 NHANES 数据,不论是通过手动下载还是直接用 R 进行数据获取,都可以根据需求选择最合适的方式。此外,将数据转换为本地 RDS 或 CSV 格式,便于后续分析和共享。借助 R 的强大数据处理能力,研究者可以更专注于数据分析和研究本身,从而为健康与公共卫生领域带来更多的科学发现与政策支持。原创 2024-12-20 10:33:10 · 838 阅读 · 0 评论 -
8篇1章1节:认识二次数据分析和NHANES数据库
文章介绍了如何通过二次数据分析节省研究成本,提升数据利用效率,并探讨了将多个二次数据集进行联合挖掘的优势,以获得更加全面和深入的研究成果。此外,文章还着重介绍了NHANES这一具有代表性的公共数据库,通过回顾其历史和数据采集方法,分析了其在健康监测、疾病预防、营养评估等领域的重要作用,为临床研究者提供了宝贵的数据支持。原创 2024-12-19 17:29:49 · 500 阅读 · 0 评论 -
7篇3章7节:特征工程变量子集选择的嵌入式方法应用
特征工程是整个机器学习流程中不可或缺的一环,而变量子集选择作为特征工程的重要组成部分,其好坏直接影响模型的泛化能力和预测效果。本文详细讲解了嵌入式方法在特征选择中的应用,重点解析了正则化技术(尤其是LASSO)的基本原理、数学描述及R语言实现过程。原创 2025-04-14 11:33:10 · 504 阅读 · 0 评论 -
7篇3章6节:特征工程变量子集选择的包装器方法应用
包装器方法通过搜索候选特征子集的空间,并利用模型在子集上的表现来衡量“有用性”。由于这种方法需要对每个候选子集建立并验证模型,因此计算量大,但与此同时,其优势在于模型性能评估能够充分利用训练数据的信息,从而更好地反映出特征对结果的影响。原创 2025-04-08 16:33:48 · 770 阅读 · 0 评论 -
7篇3章5节:特征工程变量子集选择的过滤器方法应用
本文将重点阐述如何利用方差系数(Coefficient of Variance, CoV)对连续变量进行标准化,再根据降序排序得到最具代表性的特征,并进一步利用这些筛选出的特征构建二项逻辑回归模型,以评估这种方法在分类问题上的表现。同时,我们还将结合相关矩阵,探讨变量之间的相关性对模型显著性检验和整体预测效果的影响。原创 2025-04-08 11:28:30 · 382 阅读 · 0 评论 -
7篇3章4节:特征工程的变量子集选择
变量子集选择的目的是在众多特征中筛选出最具有预测能力、最具代表性的那一部分,从而提高模型的性能、减少训练时间、降低过拟合风险,并提升可解释性。原创 2025-04-07 10:47:36 · 177 阅读 · 0 评论 -
7篇3章3节:了解特征工程的特征排名
在机器学习和数据科学领域,特征选择是一个至关重要的步骤,直接影响模型的性能和解释能力。特征排名是一种常见的方法,它可以根据预定义的指标来衡量各个特征对目标变量的贡献度,并据此对特征进行排序。常见的度量方式包括信息增益、基尼系数、SHAP值、递归特征消除等。这些方法通过评估特征对模型预测结果的影响,帮助研究人员筛选出最具价值的特征。原创 2025-04-02 09:17:18 · 830 阅读 · 0 评论 -
7篇3章2节:了解特征工程的工作数据
在机器学习和数据科学领域,特征工程是一个至关重要的步骤。特征工程的核心目标是从原始数据中提取、转换并优化特征,以提高模型的性能和泛化能力。要做好特征工程,首先必须充分了解数据的结构、类型和质量,即“工作数据”。原创 2025-04-01 11:28:41 · 368 阅读 · 0 评论 -
7篇3章1节:认识机器学习的特征工程
特征工程是将原始数据预处理为机器可读格式的过程。它通过转换和选择相关特征来优化机器学习(ML)模型的性能。特征工程的核心在于将原始数据转换为机器学习模型可用的信息。换句话说,特征工程是创建预测模型特征的过程。原创 2025-03-31 14:41:01 · 686 阅读 · 0 评论 -
7篇2章12节:抽样的蒙特卡洛方法
文章代码通过详细的中文注释解释了每一步的目的和实现细节,从设置随机数种子开始,到生成候选样本、计算目标密度、确定最大密度值,再到执行接受-拒绝抽样,最后绘制直方图和理论密度曲线。这样不仅便于代码阅读者理解蒙特卡洛方法中接受-拒绝抽样的核心原理,也有助于掌握R语言在统计模拟中的具体实现步骤。原创 2025-03-17 10:50:07 · 1840 阅读 · 0 评论 -
7篇2章11节:自助抽样及其在R语言中的实现与验证
自助抽样(Bootstrapping)是一种通过对数据或由数据拟合得到的模型进行重复抽样(通常采用有放回抽样)来估计统计量分布的方法。这种方法能够为样本估计量赋予准确性指标,如偏差、方差、置信区间、预测误差等。换句话说,通过随机抽样技术,我们可以估计几乎任何统计量的抽样分布,从而为统计推断提供可靠的依据。原创 2025-03-12 08:58:18 · 658 阅读 · 0 评论 -
7篇2章10节:聚类抽样及其在R语言中的实现与验证
本文将围绕聚类抽样的基本理论、不同分类、优缺点、与分层抽样的异同以及实际应用展开详细论述,并结合R语言的实现方法,帮助读者全面了解并掌握聚类抽样在数据分析中的实际操作。原创 2025-03-10 16:20:25 · 866 阅读 · 0 评论 -
7篇2章9节:分层随机抽样及其在R语言中的实现与验证
本文旨在系统地阐述分层随机抽样的理论基础、抽样方法及其在R语言中的实现,同时讨论该方法的优缺点,并结合实际案例展示如何利用R语言实现分层抽样的全过程。原创 2025-03-10 11:05:25 · 505 阅读 · 0 评论 -
7篇2章8节:系统性随机抽样及其在R语言中的实现与验证
通过理论分析与实际代码示例,证明了在满足同质性条件下,系统性抽样可以与简单随机抽样取得相似的统计效果,且具有更高的计算效率。这为医疗大数据的抽样分析提供了可行的技术路径,也为后续基于抽样数据的临床决策和公共卫生研究打下坚实基础。原创 2025-03-07 11:37:15 · 259 阅读 · 0 评论 -
7篇2章7节:简单随机抽样及其在R语言中的实现与验证
在医学数据处理中,通过合理运用 R 语言中的dplyr包的summarise()函数进行数据聚合,以及sample()函数进行随机抽样,并结合 KS 检验、t 检验和可视化直方图等方法对抽样结果进行评估,能够帮助医学研究人员高效地获取具有代表性的样本数据,为深入开展医学研究提供有力的支持。原创 2025-03-04 10:30:18 · 757 阅读 · 0 评论 -
7篇2章6节:深度解析和认识中心极限定理
在统计学和概率论中,中心极限定理是最为重要的理论之一。它描述了在某些条件下,独立随机变量的样本均值会收敛于正态分布。这个定理为假设检验、统计推断和数据建模提供了重要理论基础,使得我们能够在许多实际问题中运用正态分布的性质来进行分析。原创 2025-03-03 13:11:58 · 579 阅读 · 0 评论 -
7篇2章5节:抽样分布的统计理论
通过本文对大数定律及其相关概念的探讨,我们不仅理解了其在统计学中的重要地位,也通过具体的模拟实验加深了对其应用的认识。使用现代统计工具如R语言和data.table包,我们能够高效地进行模拟实验,并可视化实验结果,从而更直观地感知大数定律在实际问题中的表现和作用。原创 2025-02-26 09:02:49 · 507 阅读 · 0 评论 -
7篇2章4节:概率抽样和三种非概率抽样的实现
抽样方法在统计学研究和数据科学中具有重要的地位,尤其是在医学和生物统计领域。选择合适的抽样方法直接影响研究结果的可靠性和有效性。在实践中,抽样方法通常可以分为两大类:概率抽样和非概率抽样。本文介绍了三种常见的非概率抽样方法:便利抽样、有目的抽样和配额抽样,并通过R语言代码实现了这些方法的应用。原创 2025-02-24 14:14:19 · 580 阅读 · 0 评论