序列数据:有时序结构的数据,当前数据和之前观察到的数据相关。如:音乐,文本,语言都是连续的。
序列数据如何建模呢?首先需要明确我们观察到的数据 是服从联合分布
的不独立的随机变量。不像识别图片时,图像数据互相都是相互独立的。我们要做的就是对这个联合分布
建模,联合概率可以用条件概率展开,有两种方式如下:
![](https://img-blog.csdnimg.cn/f6f76f9fcfe04002b73983eaec0cc16b.png)
第一种展开方式:要想对 建模,必须知道过去发生什么事情,必须知道
。
![](https://img-blog.csdnimg.cn/b3dcc303cb0f48e8a002c2e7cc3b5135.png)
第二种展开方式:反序的,要算,需要知道
。这种方式物理上不一定可行,因为真实事件一般都是未来基于前面的事件去产生。
接下来,基于第一种展开方式(用过去预测将来)来讲一下序列模型。核心是对条件概率建模,也就是在过去的数据上建立一个模型,来预测未来。这里过去和未来的数据是一种东西,也就是拿自己的过去预测自己的未来,即自回归模型:
![](https://img-blog.csdnimg.cn/db88e842432c4dd49c53697759155b63.png)
那么如何去得到上图中的 以及求得待预测的
就是我们关注的重点。
课程中介绍两种自回归模型,1 马尔可夫假设 2 潜变量模型。
马尔可夫假设是假设当前数据只和过去个数据点相关,相当于在用过去预测未来时,对使用的过去数据定了个长度,这样做方便了建模,比如使用MLP多层感知机在过去数据上建模。
![](https://img-blog.csdnimg.cn/c67d943d9d3a4cda9cd871aec6f4ca37.png)
潜变量模型是使用了一个潜变量 来表示过去的信息,即
。把过去的信息用一个数据表示,
![](https://img-blog.csdnimg.cn/ed6584c4767246758d122f92c1f0f326.png)
潜变量模型关注两个点:一个是如何构造模型去得到潜变量;一个是如何由潜变量去预测未来。RNN就是潜变量模型。