tableone详细解析（1）------分类变量

不许知道我是谁

已于 2024-03-02 15:51:51 修改

阅读量2.1k

点赞数 34

分类专栏： R tableone 文章标签： r语言

于 2024-03-02 15:49:47 首次发布

本文链接：https://blog.csdn.net/2401_82757200/article/details/136413563

版权

R 同时被 2 个专栏收录

3 篇文章

订阅专栏

tableone

3 篇文章

订阅专栏

本文介绍了tableone这款工具，用于快速制作文章表一，包括批量描述、变量自动比较和正态性检验。通过R语言的示例，展示了如何使用tableone对MayoClinicPrimaryBiliaryCirrhosisData中的分类变量进行统计分析，并创建分层列联表，结果可导出至Word或Excel进行微调。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

tableone 是用于快速制作文章表一的工具包

优点：批量描述，根据变量自动进行组间比较以及正态性检验描述。输出结果可直接粘贴至word或excel进行微量调整即可用于发表格式。

新手上路：下载tableone及调用

install.packages("tableone")
library(tableone)

以Mayo Clinic Primary Biliary Cirrhosis Data(示例数据) 举例

先调用示例数据

library(survival)
data(pbc)
## 查看示例数据pbc的内容
head(pbc)

该示例数据中"status","ascites","hepato","spiders","edema","stage"是分类变量

本章的目标是对这些分类变量进行table1的描述及两组间比较

下面是正式运行阶段，描述数据情况，充分了解数据。

#### 创建分类变量，c（“分类变量”）
catVars <- c("status","ascites","hepato","spiders","edema","stage")
catTableOverall <- CreateCatTable(vars = catVars, data = pbc)

查看描述性结果

print(catTableOverall)#默认对二分类变量0，1只展示1的频率（百分比），对三分类及以上的变量则展示全部分层的频率（百分比）

print(catTableOverall, showAllLevels = TRUE)
##showAllLevels = TRUE是展示所有分类变量各个分层的频率（百分比）

##这里也可以替换成其他需求进行展示，例如：
print(catTableOverall, cramVars = "hepato")，#只对"hepato"这个二分类变量展示全部分层频率（百分比）

print(catTableOverall, format = "f")#只展示频率
print(catTableOverall, format = "p")#只展示百分比

summary（）可展示缺失值，缺失值百分比，各分层频率百分比及累计百分比。

summary(catTableOverall)

——————————————————我是一个分隔符————————————-—————

下面进入创建列联表，strata=c("分组变量")

##创建一个由两个变量（"sex","trt"）分层的列联表，这里的("sex","trt")也可以换成其他目标分组变量，根据研究目的，可以是一个或多个
atTableBySexTrt <- CreateCatTable(vars = catVars,
                                   strata = c("sex","trt"), data = pbc)

summary(catTableBySexTrt)会生成很多内容，不利于整理，此时不建议用。

直接输入catTableBySexTrt，内容更清晰

catTableBySexTrt

如果想指定某个变量用exact test,则在print时加入需求，如下：

print(catTableBySexTrt, exact = "ascites")

————————————下面是汇总成一个代码，可直接跑数据——————————————

library(tableone)

data<-read.sav("文件路径")

catVars <- c("分类变量")

catTableBySexTrt <- CreateCatTable(vars = catVars,strata = c("分组变量"), data = data)

catTableBySexTrt

print(catTableBySexTrt,pDigits=4)

## 获取变量名称 ,该代码有利于我们输入大量的变量名称

dput(names(pbc))

如果想把结果直接粘贴到excel

print(catTableBySexTrt,  quote = TRUE)

如果想把结果直接粘贴到word

print(catTableBySexTrt, quote = TRUE, noSpaces = TRUE)

————————————下面内容新手可以不看，讲的不好浪费时间————————————

CreateCatTable（）内可设置的调整内容如下：

CreateCatTable(
vars,##变量
strata,##分组变量
data,##数据集

pDigits=3#默认=3，是小数点后三位，如小数点后4位，则=4

smd = TRUE,##这个可以有

——————————————以下新手（我）均可默认——————————————————
includeNA = FALSE,##如果为TRUE，NA将作为常规因子级别处理，而不是缺失。NA是显示为表中的最后一个因子级别。仅对分类变量有效。我的数据集该处不要做调整，默认缺失值不参与计算即可。

test = TRUE,#默认TRUE，如果有两个以上的组，则执行逐组比较。这两种测试都需要大样本近似和精确测试。任何一个结果都可以通过print（）获得。上面已做演示。
testApprox = chisq.test,#用于执行基于大样本近似的测试的函数。默认为chisq.test。当某些单元格的计数较小（如小于5）时不建议这样做。
argsApprox = list(correct = TRUE),#传递给testApprovx中指定的函数的参数的命名列表。默认值为list（correct=TRUE），打开chisq.test的连续性校正。**我理解的就是别纠结，我们这个水平默认就行，别管。我不会如果你会，能不能留言教我一下，哈哈
testExact = fisher.test,#用于执行Exact test的函数，默认为fisher.test。如果单元格的数量很大，则会由于内存限制而失败。在这种情况下，基于大样本近似的方法就足够了。
argsExact = list(workspace = 2 * 10^5),#传递给testExact中指定的函数的参数的命名列表。默认值为list（workspace=2*10^5），它指定为fisher.test分配的内存空间。
addOverall = FALSE#默认不选，如果选TRUE，则只输出p值

)