- 博客(7)
- 收藏
- 关注
原创 数据清洗:提取字符串中的数字
数据清洗:提取字符串中的数字在我们日常进行数据清洗的过程中,可能会遇到需要对字符串进行操作和处理的任务。在下面的例子中,我们收到了一份关于医院患者输注血制品的医嘱单,但遗憾的是,在这份数据集中,输注血制品的量包含在了一个字符串中而不是被正确的提取在用量这一列中。数据集如下:> head(examdata) ID ORDER_NAME DRUG_QUAN ZXDW1 2559 输红细胞悬液2个单位 1 <NA>2 1945 输红细胞悬液2个单
2021-05-18 23:45:49 1185
原创 使用R进行描述性统计分析(连续性变量)
使用R进行描述性统计分析(连续性变量)对于描述性统计来说,R可以实现的方法有很多,基础自带的有summary()函数,还有其他packages,如Hmisc包,pastecs包,psych包提供了计算更多内容的函数。基础函数在R中,我们经常使用summary()函数来计算最大值、最小值、四分位数、均值、频数等等。data(mtcars)myvars <- c("mpg", "hp"...
2019-07-18 18:31:42 8304
原创 MIMICIII 数据库中患者住院次数分布
MIMICIII 数据库中患者住院次数分布数据库中三个病人IDsubject_id:hadm_idicustay_id数据库患者住院次数的分布使用聚合函数进行查询使用R链接数据库进行绘图数据库中三个病人ID最近在用MIMICIII数据库提取一些数据,突然意识到一个问题,提取出的数据很多患者都是多次入院的。因此,特地去查看下数据库中到底有多少患者住了多少次的医院。在MIMICIII数据库中,存...
2018-11-14 21:41:54 6246 10
原创 MIMIC-III数据库的应用(一)
MIMIC-III数据库的应用(一)MIMIC-III是由麻省理工学院计算生理学实验室开发的公开可用数据集,其中包含了&gt;60000次住院相关的数据,时间跨度为2001-2012年,包括人口统计学,生命体征,实验室测试、药物等。Nature上的一篇文献描述了该数据库(http://www.nature.com/articles/sdata201635)。关系型数据库与SQL关系...
2018-07-08 16:17:53 23691 38
原创 使用ggplot2进行数据可视化:散点图篇
使用ggplot2进行数据可视化:散点图篇 The simple graph has brought more information to the data analyst’s mind than any other device. —John Tukey在数据分析中,进行数据可视化是一个重要的步骤。在前期对数据进行初步探索时,数据可视化会让我们对数据有一个初...
2018-06-25 19:06:12 25776 2
原创 生存分析与R
生存分析与R生存分析是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且还考虑事件出现的时间长短,因此这类方法也被称为事件时间分析(time-to-event analysis)。生存分析是医学领域中一个重要的内容,在肿瘤等疾病的研究中运用十分广泛。1.生存分析中的重要概念生存分析的数据资料与其它一般的数据资料有一些不同的特征: 1....
2018-05-19 19:55:06 23197 1
原创 R语言数据清洗
R语言数据清洗一般来说,在获得了原始数据之后,不能直接开始进行统计分析等操作。因为通常我们获得的数据都是「脏」数据,在分析之前需要进行数据的清洗。对于清洁的数据(tidy data)的定义为: - 每个变量各占一列 - 每个观测值各占一行 - 每个表格或者文件只储存一种观测值的数据 对于数据清洗,Python中著名的pandas包可以进行十分方便的处理([具体可见这篇博文])。而...
2018-04-23 21:48:34 12033
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人