重要的数学模型
1.隐含马尔可夫模型
马尔可夫假设:随机过程中各个状态St的概率分布只与它的前一个状态St-1有关。
符合这个假设的随机过程称为马尔可夫过程,也称为马尔可夫链。
隐含马尔可夫模型是上述马尔可夫链的一个扩展:任一时刻t的状态St是不可见的。但是,隐含马尔可夫模型在每个时刻t会输出一个符号Ot,而且Ot跟St有关,且仅与St有关,这个被称为独立输出假设。
隐含马尔可夫模型的结构如下,其中隐含的状态S1,S2,……,St是一个典型的马尔可夫链。
根据观测信号找到最有可能产生观测信号的源信号。
一旦O1,O2,……,Ot产生了,它就不会变了,这时分母是一个可以忽略的常数。根据马尔可夫假设和独立输出假设,
所以,
隐含马尔可夫模型需要一个训练算法(鲍姆韦尔奇算法,它是一种无监督的训练算法,这里不赘述)和一个解码算法(维特比算法)。维特比算法是针对一个特殊的图——篱笆网络的有向图最短路径问题而提出的。
2.最大熵模型
最大熵原理说白了,就是保留全部的不确定性,将风险降到最小。最大熵原理指出,对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不做任何主观假设。假设X1,X2,……,X20为20种不同的特征且相互独立,d为待预测的对象。
其中归一化因子是
最原始的最大熵模型的训练方法是一种称为通用迭代算法GIS(Generalized Iterative Scaling)的迭代算法,后有改进迭代算法IIS(Improved Iterative Scaling)。
3.贝叶斯网络——马尔可夫链的扩展
在一个有向图中如果马尔可夫假设成立,那么它就是贝叶斯网络。贝叶斯网络中所有的因果关系都可以有一个量化的可信度,即用一个概率描述。在网络中,每个节点的概率都可以用贝叶斯公式来表示。
使用贝叶斯网络首先要确定它的结构,对于简单的问题可以人工给出结构,对于复杂一点的问题则需要机器学习得到。确定贝叶斯网络的结构后,还需要确定节点之间弧的权重,为此,我们需要一些训练数据,通过优化贝叶斯网络的参数使得观察到的这些数据的概率达到最大,这个过程就是之前介绍过的EM过程。
4.条件随机场——隐含马尔可夫模型的扩展
在隐含马尔可夫模型中,Ot只取决于St,而与St-1,St+1无关,显然在很多应用里观测值可能和前后的状态都有关,如果把St-1,St+1都考虑进来,那么得到的模型就是条件随机场。
条件随机场和贝叶斯网络都是一种特殊的概率图模型,它们都遵守马尔可夫假设,但不同的是条件随机场是无向图,而贝叶斯网络是有向图。
在大部分应用中,条件随机场的节点分为状态节点的集合Y和观察变量节点的集合X。整个条件随机场的量化模型就是这两个集合的联合概率分布模型P(X,Y)。由于这个模型的变量特别多,不可能获得足够多的数据来用大数定理直接估计,因此只能通过一些它的边缘分布来找出一个符合所有这些条件的概率分布函数。根据最大熵原则,目标是找到一个符合所有边缘分布并使熵达到最大的模型,这个模型是指数函数。每一个边缘分布对应指数模型中的一个特征fi,把这些特征应用到模型中,得到如下公式:
5.逻辑回归模型
逻辑回归模型是指将一个事件出现的概率逐渐适应到一条逻辑曲线上。逻辑曲线是一条S型曲线,特点是一开始变化快,逐渐减慢,最后饱和。一个简单的逻辑回归函数有如下形式:
对应如下曲线:
自变量的定义域是实数域,值域是[0,1]。
书中还有一些诸如布隆过滤器,信息指纹方面的知识,因为与我的专业不很相关,就不整理了。