目录
General Time-Normalized Distance Definition
Restrictions on Warping Function
Discussions on Weighting Coefficient
practical DP-Machine Algorithm
Introduction
以往的度量两个序列之间差异的方法都是线性的,线性方法不足以度量非线性波动。
DP-Machine Principle
General Time-Normalized Distance Definition
语音(speech)可以通过合适的特征抽取,表示成一系列的特征向量(feature vector)。
研究问题:消除两个序列之间的时间差异。
为了搞清楚 时间轴上的波动(时间差异),考虑一个 i - j 平面,如 Fig. 1 所示。序列 A 和 B 分别沿着 i 轴 和 j 轴。
两个序列之间的时间差异可以用一系列 点 c = (i,j) 表示:F = c(1), c(2), ... , c(k), ... , c(N) 。其中,c(k) = ( i(k), j(k) ) 。序列 F 可以看成 将 A 映射成 B 的一个函数, warping function 。
若两个序列之间没有时间差异,warping function 就是对角线 j=i 。随着时间差异的增大,warping function 会越来越 远离 对角线。
用 两个特征向量和
之间的距离
度量两个序列之间的差异。那么,warping function 的 距离加权和 为:
。其中,
是一个非负数,表示权重系数(weighting coefficient);人为引入该系数,以使 E(F) 能够度量更灵活的特征。
使 E(F) 达到最小值,就能够最佳地调整时间差异。这个最小值可以看成序列 A 和 B 之间的距离。即使消除了时间差异,该距离仍然存在;该距离是一个与时间轴波动无关的自然距离。基于上述考量,定义 两个序列 A 和 B 之间的 时间归一化距离(time-normalized distance)为:
上式仅仅是一个基本定义,该式的有效性很大程度上依赖于 warping function 和 weighting coefficient 。由于时间归一化距离的有效性与序列的性质有很大关系,提出以下限制:
Conditon 1 : Speech patterns are time-sampled with a common and constant sampling period. (序列的时间采样间隔是一个常数)
Condition 2 :We have no a priori knowledge about which parts of speech pattern contain linguistically important information. (序列的每一个部分都同等重要)
Restrictions on Warping Function
warping function F 是一个表示时间轴波动的模型。F 把序列 A 映射到 序列 B 上时,必须保留序列 A 的基本结构。基本结构包括 连续性(continuity)、单调性(monotonicity)、参数转换速度 等。因此,需要对或 点
进行限制:
① Monotonic conditions:
② Continuity conditions:
结合 ① 和 ② 可得,两个连续点之间有下述关系:
③ Boundary conditions:,
。
④ Adjustment Window condition:,
(正整数) 是 window length 。该限制条件的原因是:在一般情况下,时间波动并不会引发特别剧烈的时间差异。
⑤ Slope constraint condition:warping function F 的导数不能太大也不能太小,导数是离散形式的。因为极端的导数可能会导致不期望的时间轴扭曲。导数太大,可能会造成 一个很短的序列 和 一个很长的序列 匹配,但这种匹配是不真实的。
该限制条件即限制一些连续点的关系。比如,如 Fig. 2(a)/(b) 所示:如果 c(k) 向 i/j 轴方向 连续移动了 m 次,那么 c(k) 就暂时不能再继续走这个方向了;必须等它向对角线方向移动至少 n 次之后,才能继续走 i/j 轴方向。
斜率限制的有效密度(effective intensity)可以通过 P = n / m 度量。P 越大,warping function 的斜率限制越严格。P = 0 时没有限制,P 为正无穷(m = 0)时 warping function 被限制在对角线 j=i。
一般来说,如果斜率限制过于严格,算法就无法有效运转;斜率限制过于宽松,则可能无法区分不同类型。
Fig. 2(c) 和 (d) 展示了 P = 1 的两个例子。Fig. 2(c) 是直接从上述定义衍生而来的。Fig. 2(d) 是一个近似情况;除了原始的一阶导数限制,还对二阶导数进行了限制,使得 c(k) 路径不会垂直改变。这个新的限制减少了搜索的路径数量,下文都使用这种简单化的版本。
Discussions on Weighting Coefficient
上式是一个机理性表达,权重系数的确定是一个难题。
如果分母(normalization coefficient)是个常数,就可以将其移出考虑范围,并将上式简化成。这个简化后的问题就可以通过 dynamic programming 技术来有效地解决。
两种典型的满足上述条件的 权重系数的定义:
[3] -, “Comparative study of DP-pattern matching techniques for speech recognition” (in Japanese), in 1973 Tech. Group Meeting Speech, Acoust. SOC. Japan, Preprints (S73-22), Dec. 1973.
① Symmetric form:
② Asymmetric form:
假设 i 和 j 都是连续的,那么:在 对称形式(① symmetric form)中 D(A,B) 表示沿轴 l = i+j 的积分,D(A,B) 是对称的,即 D(A,B) = D(B,A) ;在 非对称形式(② asymmetric form)中 D(A,B) 表示沿轴 i 的积分。
此外,如 Fig. 3 所示:在对称形式中,当 warping function 向 j 轴方向行进时,权重系数 会减小到 0,
,说明有些 特征向量
被剔除出了上述积分; 在非对称形式中, 权重系数
的最小值为 1,积分中不会出现剔除现象。
由于之前假设 序列中的每个点都被平等对待,我们应当尽量避免(对称形式)有元素被剔除的现象。但是,对称形式比非对称形式 精度高;且 斜率限制 减小了点朝 j 轴方向行进的概率。
practical DP-Machine Algorithm
DP-Principle:[7] R. Bellman and S. Dreyfus, Applied Dynamic Programming. New Jersey: Princeton Univ. Press, 1962.
DP - Equation :
此处,隐式地假设了 c(0) = (0, 0)。是对称形式,
是非对称形式。
以对称形式、不限制斜率(P = 0)为例:
使用非对称形式,或引入斜率限制,都需要对算法进行调整。Table I 总结了一些情况。
DP-equation 必须以升序的方式递归计算,从 (1, 1) 直到 (I, J)。DP-equation 必须计算的区域包括 。
Experiments and Results
Experiment Outline
Experiment (I)
Experiment (II)
Experiment (III)
Discussion
Conclusion