马尔科夫模型
我们经常会考虑一个由并不互相独立的随机变量组成的序列。
例如我们在自然语言处理中,我们遇到以下一段文字序列:
今天你吃饭了吗
很明显,这些单个的文字并不是完全独立产生的,“今天你吃饭了吗”这七个字每一个字的出现都与前面文字的出现有着一定的关系。在某一个段落里,出现了这样一个语句,我们大致可以视为,“吃”字的出现,只与“今天你”的出现有关,跟前面段落无关。当然,我们也可以再大胆做一个假设,“吃”的出现,只与“你”有关。也就是说,句子中每一个字的出现,只与前一个字有关。
假设X=(X1,X2,···,Xt)是一个取值于有限集合S = {S1,···,Sn}的随机变量序列,则马尔科夫模型有以下两个性质:
有限视野
P(Xt+1=Sk|X1,X2,···Xt) = P(Xt+1=Sk|Xt)
序列中未来某个随机变量的产生只与此刻产生的随机变量有关,与以前出现的随机变量无关。
时间不变性
P(Xt+1=Sk|Xt) = P(X2=Sk|X1)
某个随机变量的产生与该变量和前一个变量组成的二元序列的出现时间(前后位置)没有关系
序列X称为一个马尔科夫链
同时方便计算第一个随机变量的概率,我们额外制定某个特殊状态S0为初始状态,则P(X)=P(X1|S0) * P(X2|X1) * ··· * P(Xt|Xt-1)