有序分类和连续变量所对应的相关性

戳戳原链接:https://support.minitab.com/zh-cn/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/what-are-categorical-discrete-and-continuous-variables/。

分类变量(categorical variable)是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造 业”等。

有序分类变量:各类别之间有程度的差别。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。
有序分类变量如微生物菌群丰度、代谢产物丰度及药效之间的相关性可以使用Spearman相关性进行分析。

连续变量
连续变量是在任意两个值之间具有无限个值的数值变量。连续变量可以是数值变量,也可以是日期/时间变量。例如,零件的长度,或者收到付款的日期和时间。
可以使用Pearson相关性进行分析。

### 如何在R语言中计算分类变量的相关系数 对于分类变量,通常使用的相关系数有Polychoric和Polyserial两种。这两种方法分别适用于不同类型的分类数据。 #### Polychoric 相关系数 当两个变量都是有序类别型变量时,可以使用Polychoric相关系数来衡量它们之间的关联程度。此系数假设潜在的连续分布被分割成离散区间从而形成观测到的类别型变量[^2]。 ```r # 安装并加载psych包用于计算polychoric相关 install.packages("psych") library(psych) # 创建一个示例的数据框df,其中包含两列有序因子 set.seed(123) df <- data.frame( var1 = factor(sample(c('Low', 'Medium', 'High'), 100, replace=TRUE)), var2 = factor(sample(c('Small', 'Large'), 100, replace=TRUE)) ) # 计算var1与var2间的polychoric相关 result_polychoric <- polychoric(df$var1, df$var2) print(result_polychoric$rho) # 输出rho值表示相关强度 ``` #### Polyserial 相关系数 如果其中一个变量是连续型而另一个是二元或多类别的无序类别型,则应采用Polyserial相关系数来进行评估。这种方法同样基于潜变量理论模型,在这种情况下假定有一个未观察到的正态分布随机变量对应于每一个类别型响应选项。 ```r # 继续使用之前创建的数据框df作为例子 # 假设现在我们想要测量一个新的连续变量cont_var相对于原有的类别型变量var1的关系 # 添加一列模拟的连续数值给dataframe df$cont_var <- rnorm(nrow(df)) # 使用polyserial函数计算二者间的关系 require(polycor) result_polyserial <- polyserial(df$cont_var, as.numeric(df$var1), ML=T) print(result_polyserial) # 打印结果查看估计的相关性和标准误等信息 ``` 上述代码展示了如何利用`psych`库中的`polychoric()`以及`polycor`库里的`polyserial()`这两个功能强大的工具去探索不同类型之间可能存在的联系。值得注意的是,在实际应用过程中还需要考虑更多因素比如样本量大小等因素的影响以确保统计结论的有效性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值