深度学习笔记之循环神经网络——引子:序列模型
引言
从本节开始,将介绍循环神经网络系列。本节将介绍序列模型。
回顾:齐次马尔可夫假设
齐次马尔可夫假设——在隐马尔可夫模型——背景介绍中提到。已知 I \mathcal I I表示状态变量集合,以一阶齐次马尔可夫假设为例,具体表示为: t + 1 t+1 t+1时刻关于状态变量 i t + 1 i_{t+1} it+1的后验概率,仅与前一时刻状态变量 i t i_t it相关。与其他变量无关:
这里的
O \mathcal O O表示观测变量集合;
o 1 , ⋯ , o t o_1,\cdots,o_t o1,⋯,ot表示具体的观测变量。
P ( i t + 1 ∣ i t , ⋯ , i 1 , o t , ⋯ , o 1 ) = P ( i t + 1 ∣ i t ) { i 1 , ⋯ , i t , i t + 1 ∈ I o 1 , ⋯ , o t ∈ O \mathcal P(i_{t+1} \mid i_t,\cdots,i_1,o_t, \cdots,o_1) = \mathcal P(i_{t+1} \mid i_t) \quad \begin{cases} i_1,\cdots,i_t,i_{t+1} \in \mathcal I \\ o_1,\cdots,o_t \in \mathcal O \end{cases} P(it+1∣it,⋯,i1,ot,⋯,o1)=P(it+1∣it){
i1,⋯,it,it+1∈Io1,⋯,ot∈O
如果将该假设脱离隐马尔可夫模型 ( Hidden Markov Model,HMM ) (\text{Hidden Markov Model,HMM}) (Hidden Markov Model,HMM)的约束,从而进行更泛化的表示。我们可以理解为:一组不独立的随机变量 { x 1 , x 2 , ⋯ , x T } \{x_1,x_2,\cdots,x_{\mathcal T}\} {
x1,x2,⋯,xT},关于 t t t时刻 x t x_t xt的后验概率仅与该方向相邻的 τ \tau τ个随机变量 x t − 1 x t − 2 , ⋯ , x t − τ x_{t-1}x_{t-2},\cdots,x_{t- \tau} xt−1xt−2,⋯,xt−τ之间存在关联关系:
P ( x t ∣ x t − 1 , x t − 2 , ⋯ , x 1 ) = P ( x t ∣ x t − 1 , x t − 2 , ⋯ , x t − τ ⏟ τ 个随机变量 ) \mathcal P(x_t \mid x_{t-1},x_{t-2},\cdots,x_{1}) = \mathcal P(x_t \mid \underbrace{x_{t-1},x_{t-2},\cdots,x_{t-\tau}}_{\tau 个随机变量}) P(xt∣xt−1,xt−2,⋯,x1)=P(xt∣τ个随机变量
xt−1,xt−2,⋯,xt−τ)
序列模型
序列信息
序列信息,我们可以理解为:以时间为媒介,样本中存在顺序相关信息的特征。
现实生活中,存在许多基于时序结构的数据。例如:电影评分。
随着电影上映时间的推移,该电影的评分期望也会发生相应的变化。但这个变化是复杂的,因为这个评分数值是由人的主观结果。可能存在许多因素去影响人的主观能动性:
- 拍摄电影的导演或者编剧是对电影的要求较高的,其过去指导的电影口碑不错的——他的影评可能会一开始就比较优秀;
- 观众在观看了不少同题材的相关电影之后,对该题材电影的期望度变高;
- 电影选择上映的时间——例如五一假期、春节档;以及电影针对的人群等;
- 在电影上映过程中,参演的演员或者影片相关的一些负面影响——如:演员绯闻、票房造假等。
- 电影上映结束后,影评也会一直变化。如果该影片拿到了大奖——相关的评分也可能呈现优秀的趋势等。
上面的几种情况,也可以进行划分:
- 前三种情况——此时的电影还没有上映,在观众的心中就存在一些类似先验的信息。也就是说,评分结果可能会受到这些信息的影响。
先验它可看做是事件自身的一个性质。但上述的信息确实起到一部分先验的功能——对后验(电影评分)的结果造成影响。
- 后两种情况——此时的电影正在上映/上映结束之后,某些时间结点发生的事件对评分结果的影响。
综上可以看出,影评结果的优劣并非只和电影质量的优劣有关。也包含了其他因素。并且随着电影上映这个时间过程上的变化,都存在影响影评结果的情况出现。
序列信息充斥人们生活的各个角落。如:文本、音频 、视频。它们都属于序列数据。
序列数据建模
那么上面描述的序列数据要如何进行数学表示 ? ? ?假设某样本