python 求系数矩阵_使用pandas计算Cramér系数矩阵

我在pandas中有一个数据帧,其中包含在维基百科文章中计算的度量。两个分类变量nation这篇文章是关于哪个国家的,以及lang这篇文章来自哪个语言的维基百科。对于一个指标,我想看看国家和语言变量之间有多密切的联系,我相信这是用克莱默的统计数据来完成的。index qid subj nation lang metric value

5 Q3488399 economy cdi fr informativeness 0.787117

6 Q3488399 economy cdi fr referencerate 0.000945

7 Q3488399 economy cdi fr completeness 43.200000

8 Q3488399 economy cdi fr numheadings 11.000000

9 Q3488399 economy cdi fr articlelength 3176.000000

10 Q7195441 economy cdi en informativeness 0.626570

11 Q7195441 economy cdi en referencerate 0.008610

12 Q7195441 economy cdi en completeness 6.400000

13 Q7195441 economy cdi en numheadings 7.000000

14 Q7195441 economy cdi en articlelength 2323.000000

我想生成一个矩阵,显示所有国家(法国、美国、科特迪瓦和乌干达)和三种语言的组合之间的Cramer系数。所以会有一个4乘3的矩阵:en fr sw

usa Cramer11 Cramer12 ...

fra Cramer21 Cramer22 ...

cdi ...

uga ...

最后,我将在我跟踪的所有不同指标上执行此操作。for subject in list_of_subjects:

for metric in list_of_metrics:

cramer_matrix(metric, df)

然后我可以检验我的假设,即对于语言为维基百科语言的文章,度量标准会更高。谢谢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值