- 博客(2658)
- 收藏
- 关注
原创 2025 年医药类 R 语言专栏创作年度总结:携手 CSDN 的实践与成长!
本文对本人 2025 年在 CSDN 平台持续建设的医药类 R 语言专栏进行年度回顾与总结,梳理专栏从课题组内部学习材料发展为系统化科研方法体系的过程。文章重点回顾 2024 年以统计与分析方法积累为主的阶段,以及 2025 年将重心聚焦于医学公共数据库挖掘的转变,概述 NHANES、GBD、FAERS/VigiBase 与 GEO 等模块的设计思路,并对专栏未来的持续演进方向进行简要展望。
2025-12-29 17:49:20
1646
原创 《Python 编程全攻略》章节目录(持续更新中)
为彻底破解这些痛点,我们精心打造《Python 代码全攻略》专栏。专栏将以 “系统化 + 实战化 + 行业化” 为核心,持续更新优质内容。所以,无论你是零基础入门的编程新手,还是想提升技术深度、拓展行业应用的职场人,本专栏都将为你搭建从 “语法掌握” 到 “技术精通” 再到 “业务落地” 的完整学习路径,助力你全面掌握最新、最全的 Python 实用技术,真正解锁多行业应用场景,成为能解决实际问题的 Python 实战型人才。
2025-11-17 19:12:03
363
原创 《AIGC技术的应用指南》章节目录(持续更新中)
在数字化席卷全球的今天,人工智能早已走出科幻,深度融入我们生活的每个角落。从唤醒智能音箱到获取个性化推荐,从提升工作效率到改变各行各业的运行方式,AI正以前所未有的速度成为现代生活的“必需品”。它不是取代人类,而是赋能个体,让每个人都能拥有前所未有的创造力与效率。更重要的是,如今学习和使用AI的门槛比想象中低得多,不再是程序员的专属,而是每个普通人都可以掌握的基本技能。
2025-05-25 10:02:50
702
原创 【订阅后首读】专栏目录 + 核心要点(持续更新中,已超 200万字)
我们重磅推出《用 R 探索医药数据科学》专栏!本文作为专栏【订阅后首读】的核心内容,堪称开启学习之旅的 “入门钥匙”,也是整个专栏最关键的一篇指引文。文中不仅完整呈现了专栏 9 大核心篇章 + 问答板块的详细目录,更囊括了订阅后必知的核心要点 —— 从阅读设备、实操工具的使用建议,到学习路径、更新规则的清晰说明,再到问题反馈、感悟记录的实用方法,一站式帮你摸清专栏框架、找准学习方向。建议各位订阅者务必认真阅读、吃透内容,这能让你后续的学习更高效、少走弯!
2024-11-18 06:22:40
11736
50
原创 极差(Range),亦称全距,是一组数据中最大值与最小值之差。极差是最简单的离散趋势指标,反映了数据的整体离散范围。极差的计算非常简单,但它具有很大的不稳定性,因为极差仅依赖于两个极端值。如果数据中包
极差(Range),亦称全距,是一组数据中最大值与最小值之差。极差是最简单的离散趋势指标,反映了数据的整体离散范围。极差的计算非常简单,但它具有很大的不稳定性,因为极差仅依赖于两个极端值。如果数据中包含异常值或离群值,极差的结果会被极大地影响。
2026-01-08 15:36:08
107
原创 定量数据的集中趋势通常用平均数(average)、中位数(median)和众数(mode)来描述。它们能够帮助研究人员理解数据的中心位置,或者说数据分布的核心特征
定量数据的集中趋势通常用平均数(average)、中位数(median)和众数(mode)来描述。它们能够帮助研究人员理解数据的中心位置,或者说数据分布的核心特征。
2026-01-08 15:35:26
170
原创 中位数(median)是在排序后的数据集中位于中间位置的数值。与平均数不同,中位数不受极端值的影响,因此在数据偏态分布时,中位数比算术均数更能代表数据的中心趋势
中位数(median)是在排序后的数据集中位于中间位置的数值。与平均数不同,中位数不受极端值的影响,因此在数据偏态分布时,中位数比算术均数更能代表数据的中心趋势
2026-01-07 09:49:14
650
原创 定量数据的集中趋势通常用平均数(average)、中位数(median)和众数(mode)来描述。它们能够帮助研究人员理解数据的中心位置,或者说数据分布的核心特征
定量数据的集中趋势通常用平均数(average)、中位数(median)和众数(mode)来描述。它们能够帮助研究人员理解数据的中心位置,或者说数据分布的核心特征
2026-01-07 09:48:14
680
原创 认识定性数据和定量数据和描述性统计的常规分析
定量数据通常通过测量或计算得出,来源多种多样,有问卷调查、实验、观测、行政记录等。科学的数据收集过程包含设计问卷、确定样本、数据清洗等步骤,以确保最终得到的数据能真实反映研究对象的特点。
2026-01-06 11:27:02
971
原创 9篇4章8节:炎症性肠病基因表达分析演示(四)
本文在完成数据标准化、探针 ID 注释及样本分组整理的基础上,重点介绍了差异表达基因分析的统计学思想,并结合主成分分析(PCA)对样本整体表达模式进行了探索性评估。在方法实现层面,本文详细阐述了 limma 包中设计矩阵构建、线性模型拟合、经验贝叶斯修正以及差异结果提取的关键步骤,并对 logFC、P.Value、adj.P.Val 等核心统计指标进行了系统解读。最后,通过设定合理阈值对基因进行上调、下调和稳定表达的分类,展示了真实临床转录组数据中差异基因数量分布的典型特征。
2026-01-06 11:14:12
535
原创 9篇5章1节:理解美国国家健康访谈调查(NHIS)数据库
本文围绕NHIS数据库展开系统介绍,首先梳理了NHIS的历史沿革、调查对象与核心调查内容,说明其在美国公共卫生体系中的基础性地位;其次,重点阐述了NHIS的数据获取方法,包括分层多阶段抽样设计、问卷结构的演变以及2019年后调查方法的重要调整;再次,通过对近年样本规模与应答率的具体数据分析,展示了NHIS在不同年份、尤其是在新冠疫情背景下面临的挑战及其应对策略。整体而言,NHIS以其长期连续性、广泛覆盖面和不断优化的方法学,为多维度分析美国人口健康差异提供了高质量的数据基础。
2026-01-05 08:41:56
534
原创 日期时间数据的格式化与解析
在数据处理的不同阶段,日期时间数据往往需要在不同的格式之间进行转换。R中的 format() 函数提供了灵活的日期时间格式化功能,能够将日期时间对象转换为指定格式的字符串,或将字符串解析为日期时间对象。
2026-01-04 10:22:16
862
原创 日期时间运算在分析中非常常见,R中的日期时间运算非常直观且功能强大,包括加减日期时间、计算时间差等
日期时间运算在分析中非常常见。R中的日期时间运算非常直观且功能强大,包括加减日期时间、计算时间差等。
2026-01-03 09:22:26
348
原创 使用 as.POSIXct() 和 as.POSIXlt() 进行日期时间转换
除了 as.Date(),我们还可以使用 as.POSIXct() 和 as.POSIXlt() 处理日期时间数据。as.POSIXct() 返回一个UNIX时间戳,适用于快速时间运算;而 as.POSIXlt() 则返回一个包含时间各部分(年、月、日、时、分、秒)的列表,适用于需要访问各时间组件的情况。
2026-01-03 09:21:37
543
原创 在R中,日期可以使用as.Date()、as.POSIXct()和as.POSIXlt()等函数进行转换
在R中,日期可以使用as.Date()、as.POSIXct()和as.POSIXlt()等函数进行转换
2026-01-02 09:26:16
682
原创 在处理日期时间数据时,理解日期时间格式至关重要。R中使用字符格式来表示日期和时间,常见的格式包括这些
另外,在R中,日期通常使用 Date 类型表示,而日期时间则使用 POSIXct 或 POSIXlt 类型表示。POSIXct 是日期时间的数值形式,表示从1970年1月1日00:00:00 UTC到指定日期时间的秒数。POSIXlt 则是列表形式,包含日期时间的各个组成部分,如年、月、日、时、分、秒等。
2026-01-02 09:24:40
835
原创 stringr包提供了丰富的函数用于处理字符串,以下是一些常用函数的介绍
stringr包提供了丰富的函数用于处理字符串,以下是一些常用函数的介绍
2026-01-01 12:42:48
579
原创 下面我们将使用一个模拟的医疗记录数据集,其中包含各种病历记录,我们将用这些函数来查找和统计记录中包含特定症状或疾病的条目
下面我们将使用一个模拟的医疗记录数据集,其中包含各种病历记录,我们将用这些函数来查找和统计记录中包含特定症状或疾病的条目
2025-12-31 13:33:36
882
原创 str_detect()函数用于判断字符串中是否包含指定的模式。例如,我们可以用它来检测字符串country中是否包含子串“an”。
str_detect()函数用于判断字符串中是否包含指定的模式。例如,我们可以用它来检测字符串country中是否包含子串“an”。
2025-12-31 13:32:47
887
原创 在数据分析和处理过程中,字符串的操作常常扮演着极其重要的角色。R语言内置了多种功能强大的字符串处理函数,gsub() 就是其中之一。它主要用于字符串的替换、删减、增补和切割,不仅能处理单个字符串,还能
在数据分析和处理过程中,字符串的操作常常扮演着极其重要的角色。R语言内置了多种功能强大的字符串处理函数,gsub() 就是其中之一。它主要用于字符串的替换、删减、增补和切割,不仅能处理单个字符串,还能处理由字符串组成的向量。
2025-12-30 09:14:36
972
原创 检测字符串是否包含特定模式
str_detect()函数用于判断字符串中是否包含指定的模式。例如,我们可以用它来检测字符串country中是否包含子串“an”。
2025-12-30 09:13:50
703
原创 9篇4章7节:炎症性肠病基因表达分析演示(三)
在基因表达分析中,芯片探针ID通常需要转换为 Gene Symbol,以便与生物学实体直接对应。然而,一个 Gene Symbol 可能对应多条探针,这会导致表达矩阵中行名重复,从而影响差异表达分析和下游功能分析的准确性。本文介绍了如何使用 biomaRt 或芯片注释包获取探针与 Gene Symbol 的对应关系,统计重复探针分布,并将表达矩阵转换为数据框,合并注释信息,最终通过去重方法生成唯一行名的基因表达矩阵,为后续分析提供标准化的数据基础。
2025-12-29 07:52:02
901
原创 9篇4章6节:炎症性肠病基因表达分析演示(二)
本文介绍了炎症性肠病基因表达数据的预处理与探针注释。首先,通过标准化表达矩阵,消除批次效应并确认样本分布一致,保证数据适合线性模型分析。随后,将芯片探针ID转换为标准化基因符号:通过查看 ExpressionSet 注释确定平台为 GPL6244,并利用R包将探针映射为 HGNC 基因符号。在此过程中发现部分探针一对多或多对一对应基因,需通过取平均值或保留主要注释等方式处理重复,以生成唯一基因表达矩阵,为差异表达分析和功能注释提供基础。
2025-12-29 07:50:45
294
原创 填充和插值,字符串的填充:str_pad()
在这个例子中,字符串“hadley”被填充了几个空格,使其长度达到了10个字符。如果希望使用其他符号进行填充,可以通过pad参数指定。
2025-12-28 10:50:04
718
原创 字符串的分割和连接是文本处理中的基础操作
字符串的分割和连接是文本处理中的基础操作。R语言的stringr扩展包提供了一些简单易用的函数来实现这些功能。
2025-12-28 10:49:13
687
原创 stringr 扩展包中的替换操作
在R语言的stringr扩展包中,还有其他替换字符串的函数,例如str_replace() 和 str_replace_all()。这两个函数的作用与gsub()类似,但它们的设计更符合stringr包的语法风格,并且提供了一些额外的功能。
2025-12-27 09:30:13
334
原创 标准误、置信区间等指标的简便计算
在统计学中,描述一组数据时,通常使用集中趋势指标(如平均数)来反映数据的集中程度。然而,单独使用集中趋势并不能完全描述数据的特征,因此还需要引入离散趋势的指标,以揭示数据的变异程度或离散程度。
2025-12-27 09:29:19
833
原创 9篇4章5节:炎症性肠病基因表达分析演示(一)
利用GEO数据库公开数据集进行分析,不仅可以节省实验成本,还能充分挖掘已有数据资源的潜力。通过R语言和GEOquery包的操作,研究者可以高效获取表达矩阵和临床信息,进行样本分组和初步质量检查,为后续差异表达分析、功能富集分析及疾病机制研究奠定坚实基础。
2025-12-27 08:31:30
487
原创 9篇4章4节:用R语言进行GEO数据的下载和初步解析
本文系统讲解了如何使用 Bioconductor 下的 GEOquery 包下载和解析 GEO 数据库中的基因表达矩阵。重点介绍了 getGEO() 函数的使用方法、参数设置以及返回的 ExpressionSet 对象的结构与意义,包括 assayData、metaData 和 experimentData 三个核心部分。通过对 GSE63060 数据集的实操示例,展示了如何获取标准化的表达矩阵、样本临床信息和基因注释,为差异表达分析、聚类分析及生存分析等医学统计和生物信息学研究提供基础。
2025-12-26 11:21:59
845
原创 标准差(Standard Deviation, SD)是衡量数据离散程度的常用指标
标准差(Standard Deviation, SD)是衡量数据离散程度的常用指标。标准差是数据偏离平均值的程度的度量,它是方差的平方根。标准差越大,表示数据点偏离平均值的程度越大,数据越分散。
2025-12-26 10:14:22
856
原创 gsub()函数还可以结合正则表达式(regular expressions)进行更复杂的字符串操作
gsub()函数还可以结合正则表达式(regular expressions)进行更复杂的字符串操作
2025-12-25 11:22:40
1007
原创 数据库包含多个患者的详细信息,包括他们的名字、入院日期、检查结果等。为了确保数据的准确性和便于分析,医生需要对患者数据进行排序,并将排序应用到相关的列中
数据库包含多个患者的详细信息,包括他们的名字、入院日期、检查结果等。为了确保数据的准确性和便于分析,医生需要对患者数据进行排序,并将排序应用到相关的列中。
2025-12-25 11:20:30
719
原创 与str_sort()不同,str_order()函数返回的是字符串按照字母顺序排序后的索引,而不是排序后的字符串本身。
与str_sort()不同,str_order()函数返回的是字符串按照字母顺序排序后的索引,而不是排序后的字符串本身。
2025-12-24 18:51:07
577
原创 stringr包建立在stringi包的基础上,后者是一个底层的字符串处理工具
其核心包提供了建模、转换和可视化数据的功能,如用于数据可视化的 ggplot2、用于数据操作和转换的 dplyr、用于整理数据的 tidyr、用于读取数据的 readr、用于函数式编程的 purrr、用于创建整洁数据框的 tibble、用于字符串操作的 stringr、用于处理因子的 forcats 。此外,还包含用于文本分析的 tidytext、机器学习的 tidymodels 以及金融操作的 tidyquant 等辅助包。
2025-12-24 18:50:28
553
原创 通过 5 个不同场景演示str_to_sentence()的功能
这段代码先加载stringr包,通过 5 个不同场景演示str_to_sentence()的功能:分别对纯小写、大小写混乱、批量向量、带标点、含数字特殊字符的字符串,实现 “首字母大写、其余字母小写” 的句子风格转换,并用cat()和print()输出转换结果,覆盖了日常文本处理的常见需求。
2025-12-23 14:44:04
937
从药品销售与疗效数据分析例子学会R语言中的ggplot2绘图技巧
2024-09-16
用R进行复杂用户行为数据分析:深入理解用户行为、转化率与交互模式
2024-09-15
使用R语言igraph和ggraph包绘制基因相互作用网络图
2024-09-07
使用Shiny构建带有蓝色背景的双人五子棋游戏
2024-09-06
R语言与Shiny的双人飞行棋小游戏代码:回合制胜负与实时状态显示
2024-09-06
使用R语言和recommenderlab包实现基于物品的协同过滤推荐系统及内容属性综合评分
2024-09-05
使用R语言和recommenderlab包构建基于用户协同过滤的自媒体内容推荐系统,结合多属性分析
2024-09-05
使用R语言和randomForest包构建血糖预测模型
2024-09-04
使用R语言和xgboost包构建血糖预测模型
2024-09-04
使用R语言和glmnet包构建血糖预测模型
2024-09-04
使用R语言实现CLARA算法对鸢尾花数据集进行大规模聚类分析
2024-09-03
使用R语言的SOM算法对鸢尾花数据集进行自组织映射分析
2024-09-03
使用R语言中的Fuzzy C-Means算法对iris数据集进行模糊聚类分析
2024-09-03
在R中用谱聚类算法,基于图论的高效数据分组与分析
2024-09-03
在R中使用PCA降维与K-means聚类结合的算法,高效的数据分类与可视化
2024-09-03
在R中使用高斯混合模型,多分布下的概率聚类与模型评估
2024-09-03
在R中使用层次聚类算法,探索数据层次关系的高级聚类方法
2024-09-03
在R中使用DBSCAN,一种密度驱动的高级聚类算法,识别噪声与复杂形状
2024-09-03
模拟家庭收入、区域、年龄、血压及多属性的大规模数据集生成的R代码和一份10000人数据集,可以用于学习机器学习
2024-09-01
理解K-means聚类算法:基于R语言对iris数据集的详细实现与分析,R代码
2024-09-01
trekcolors R 包为科幻迷和数据分析爱好者提供了独特的 Star Trek 和 LCARS 调色板
2024-11-17
R语言数据去重与匹配:20种常用函数详解及实战示例
2024-11-16
10个例子,学会使用管道操作符 %>% 进行数据处理与可视化
2024-11-11
在R语言中实现带有边缘直方图、箱线图和密度图的散点图,以及连续变量直方图的多图展示
2024-11-09
R语言数据重塑,20种高效函数操作数据格式与管理
2024-11-02
R语言字符串操作全攻略,30个技巧一览无余!
2024-10-28
一次性掌握7种强大的临床预测模型
2024-10-27
掌握20个R语言数据清洗技巧,让数据处理更加高效和简单!
2024-10-26
基于机器学习的高血压预测模型构建与评估
2024-10-25
如何通过R代码设置RStudio全局环境
2024-10-23
R语言版本检查与扩展包自动更新示例
2024-10-21
用R语言贪心算法解决旅行商问题的模拟演示
2024-10-17
用R演示药物对糖尿病患者血糖影响的方差分析及可视化
2024-10-17
基于卵巢癌数据的治疗和年龄组生存曲线分析
2024-10-14
使用R语言和ggplot2基于iris数据集绘制常见科研图表
2024-10-12
基于主成分分析的临床高血压患者数据分析与可视化
2024-10-05
用R语言创建基于逻辑回归的高血压预测模型(准确率达到82%)
2024-10-05
用Python的基于逻辑回归的高血压预测模型.py
2024-10-05
基于R语言的主成分分析:模拟数据生成与可视化
2024-10-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅