大数据时代的特点是数据除了数量多、维度也将变多。那么传统的采样定理如果要构造合适的概率分布函数耗时且耗费大量算力。
因此引入马尔科夫链的遍历性(Ergodicity)、常返性(recurrency)特点以及蒙特卡洛方法的大量实验逼近真实概率分布的原理实现多维的数据采样。从而构造概率分布函数。
假设我们要采样的是一个二维正态分布 N(U,SIGMA),其中: U=(5,-1), 方差sigma=(1,1
1,4 );
而采样过程中的需要的状态转移条件分布为:
from mpl_toolkits.mplot3d import Axes3D
from scipy.stats import multivariate_normal
samplesource = multivariate_normal(mean=[5,-1], cov=[[1,0.5],[0.5,2]])
def p_ygivenx(x, m1, m2, s1, s2):