概率空间
参见:http://en.wikipedia.org/wiki/Probability_space
定义:三部分组成
(ΩFP)
1、样本空间
Ω
,所有可能的结果
2、事件集F,每一个事件可能包含0个或多个结果
3、事件到概率的映射P,
比如,抛掷一枚均匀硬币,
Ω={Head,tail},F={head,tail,neitherheadnortail,eitherheadortail},P={0,0.5,0.5,1}
dirichlet分布
用 Dir(α) 表示,是beta函数的扩展。常用作类别分布(0-1分布扩展)和多项分布(二项分布扩展)的共轭先验。其概率物理意义是假定事先观察到每个事件发生 αi−1 次,那么事件概率为{ xi }的概率。换言之,每次采样都是一个概率分布。这里x表示向量, xi 是其中一个事件的概率,也是服从dir分布的随机变量。具体参见http://en.wikipedia.org/wiki/Dirichlet_distribution
dirchlet过程
(参见http://en.wikipedia.org/wiki/Dirichlet_process)
和dirichlet分布类似,首先它是一个概率分布,然后其定义域(随机变量取值)是一组概率分布。它经常描述随机量p的先验,以表达这样一个事实:某一个随机量的的分布p不是固定的,而这些分布族中存在某些共性,即dirchlet过程的参数。
不同的是,dirichlet过程是dirichlet分布的无限维扩展。它是无限维(非参数)离散分布的先验。
简介:
dirichlet过程用来描述这样一些数据,具有富者愈富的模式。假设
Xi
是按如下过程生成的:
已知:基础分布H,正实数
α
(集中度参数)
1、从H中采样X1
2、for n>1:
(1)以概率
αα+n−1
从H采样得到Xn
(2)以概率
nxα+n−1
直接将Xn=x,这里
nx
就是先前看到的Xj的个数。
显然X1,X2,X3…不是独立的,但是他们是可交换的(所谓可交换是指随机变量的任何排列的联合分布都是相同的),可交换和iid的联系的是,X1,X2…在给定P下是条件独立的。这里P是随机量,同时也是一个概率分布。P的分布就是dirichlet过程。
所以可以等价于下列过程:
1、获得一个分布P~DP(H,
α
)
2、从P采样X1,X2,…
应用:
假设星系速度
vi∼N(uk,δ2)
,使我们所观察的数据。一个普通的聚类方法是:
(vi∣zi=k,uk)∼N(uk,δ2)
(给定类别和类别参数的情况下)且
P(zi=k)=πk
,然后对dir采样得到分布
π
,对于u_{k}同样假设他是随机量,也可以从另外一个分布
H(\lamda)
采样.
如果我们想用dirchlet过程来表示,就要先表示成下面对等的过程:
这里过程是我们一开始不要给每个点分类,而是直接说我要采用哪个参数,比如原来标为类1的样本直接以概率
π
采用
u1
参数,
u1
参数采样于H分布,注意这里G与pi分布建立了联系。
接着,如果假设K趋向于无穷。这里显然不再适用。因为
π
是无穷维的,没法估计。所以变为下面过程。
具体如何采样实现这个过程还有待研究。
hierarchical Dirichlet process
这个看论文还没看懂,不过思想是这样的,DP有两个参数,其中一个是分布H,这是一个固定的分布,贝叶斯没法忍受,所以认为H又服从另一个DP。这就是层级的意思。
我觉得这个思想在于认为不确定事物的共性。虽然H是不确定的,但是所有的不确定结果中一定有一个共性。比如我从一个篓子取球,虽然不知道是黑球还是白球,但是一定都是球。所以所有的随机样本一定满足这个共性,因此需要把这个知识反映在参数中。以后再看。