我在pandas中有一个数据帧,其中包含在维基百科文章中计算的度量。两个分类变量nation这篇文章是关于哪个国家的,以及lang这篇文章来自哪个语言的维基百科。对于一个指标,我想看看国家和语言变量之间有多密切的联系,我相信这是用克莱默的统计数据来完成的。index qid subj nation lang metric value
5 Q3488399 economy cdi fr informativeness 0.787117
6 Q3488399 economy cdi fr referencerate 0.000945
7 Q3488399 economy cdi fr completeness 43.200000
8 Q3488399 economy cdi fr numheadings 11.000000
9 Q3488399 economy cdi fr articlelength 3176.000000
10 Q7195441 economy cdi en informativeness 0.626570
11 Q7195441 economy cdi en referencerate 0.008610
12 Q7195441 economy cdi en completeness 6.400000
13 Q7195441 economy cdi en numheadings 7.000000
14 Q7195441 economy cdi en articlelength 2323.000000
我想生成一个矩阵,显示所有国家(法国、美国、科特迪瓦和乌干达)和三种语言的组合之间的Cramer系数。所以会有一个4乘3的矩阵:en fr sw
usa Cramer11 Cramer12 ...
fra Cramer21 Cramer22 ...
cdi ...
uga ...
最后,我将在我跟踪的所有不同指标上执行此操作。for subject in list_of_subjects:
for metric in list_of_metrics:
cramer_matrix(metric, df)
然后我可以检验我的假设,即对于语言为维基百科语言的文章,度量标准会更高。谢谢