在阅读Haruhisa Nishino的Bayesian and decomposition analyses for healthinequality in Japan这篇文章时,想实现一下其中不平等指数的后验概率密度图,之前在CSDN上找了很久关于狄利克雷分布的抽样。看了很多抽样方法比如MCMC,M-H和GIBBS抽样,均无果,最后发现狄利克雷分布可以有专门的函数进行抽样,顿时解决了一大部分的问题,本文将详细讲述该文献中后验概率密度图的画法,python小白,也一直在CSDN上学习中,望大家多多指正。
一、理论
1.数据基本介绍
该文利用“日本生活状况综合调查”中收集的自我报告健康状况数据研究了日本健康状况的不平等。所使用的数据是序数的,并引入了序数数据的不等测度。
文中的健康状况使用序数数据表示,假设X代表自我报告健康状况的有序量表,x=1,2,3,...,k,x=1表示最差的健康状况,x=k表示最好的健康状况,纵观有k个类别。以x为序数随机变量,px(j)是类别j中的个体数占总体数的比例。
,
是其分布函数。本文数据来自CSLC1998年、2007年和2016年的调查(每年的总样本量为50060万)。对于自我报告的健康状况,k=5可以是1:较差,2:还行,3:尚可,4:不错,5:非常好。
文中所给数据如下表所示:
2.序数数据不平等指数公式
本文用到两种不平等指数公式如下
Abul Naga and Yalcin (2008)提出的序数数据不平等指数: