序数数据不平等指数后验概率密度图

半烬禾

于 2022-07-15 16:35:14 发布

阅读量441

点赞数 1

文章标签：机器学习大数据人工智能 python

本文链接：https://blog.csdn.net/m0_45199967/article/details/125796429

版权

针对序数数据不平等的测度，学者提出了两种不平等指数进行测量，本文旨在用python复现这篇关于健康不平等的论文中的表格数字的计算与图片。

摘要由CSDN通过智能技术生成

在阅读Haruhisa Nishino的Bayesian and decomposition analyses for healthinequality in Japan这篇文章时，想实现一下其中不平等指数的后验概率密度图，之前在CSDN上找了很久关于狄利克雷分布的抽样。看了很多抽样方法比如MCMC，M-H和GIBBS抽样，均无果，最后发现狄利克雷分布可以有专门的函数进行抽样，顿时解决了一大部分的问题，本文将详细讲述该文献中后验概率密度图的画法，python小白，也一直在CSDN上学习中，望大家多多指正。

一、理论

1.数据基本介绍

该文利用“日本生活状况综合调查”中收集的自我报告健康状况数据研究了日本健康状况的不平等。所使用的数据是序数的，并引入了序数数据的不等测度。

文中的健康状况使用序数数据表示，假设X代表自我报告健康状况的有序量表，x=1,2,3,...,k，x=1表示最差的健康状况，x=k表示最好的健康状况，纵观有k个类别。以x为序数随机变量，px(j)是类别j中的个体数占总体数的比例。 $\sum_{j=1}^{k}p_{x}(j)=1$ , $F_{x}(j)=\sum_{i=1}^{j}p_{x}(j)$ 是其分布函数。本文数据来自CSLC1998年、2007年和2016年的调查(每年的总样本量为50060万)。对于自我报告的健康状况，k=5可以是1:较差，2:还行，3:尚可，4:不错，5:非常好。

文中所给数据如下表所示：