1978年《Dynamic Programming Algorithm Optimization for Spoken Word Recognition》

ww大魔王丷

于 2023-03-29 16:28:00 发布

阅读量661

点赞数 1

分类专栏：文献阅(fān)读(yì) DTW 文章标签：动态规划算法

本文链接：https://blog.csdn.net/qq_40292148/article/details/129833196

版权

DTW 同时被 2 个专栏收录

19 篇文章

订阅专栏

文献阅(fān)读(yì)

18 篇文章

订阅专栏

文章介绍了DP-机器的基本原理，特别是其在处理两个序列间非线性时间差异的问题。时间归一化距离通过warping函数和权重系数来量化序列间的差异，同时提出了对warping函数的限制条件以保持序列结构。讨论了权重系数的选择，包括对称和非对称形式，并展示了动态规划在解决这一问题中的应用。实验部分验证了方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Introduction

DP-Machine Principle

General Time-Normalized Distance Definition

Restrictions on Warping Function

Discussions on Weighting Coefficient

practical DP-Machine Algorithm

Experiments and Results

Introduction

以往的度量两个序列之间差异的方法都是线性的，线性方法不足以度量非线性波动。

DP-Machine Principle

General Time-Normalized Distance Definition

语音（speech）可以通过合适的特征抽取，表示成一系列的特征向量（feature vector）。

研究问题：消除两个序列之间的时间差异。

为了搞清楚时间轴上的波动（时间差异），考虑一个 i - j 平面，如 Fig. 1 所示。序列 A 和 B 分别沿着 i 轴和 j 轴。

两个序列之间的时间差异可以用一系列点 c = (i,j) 表示：F = c(1), c(2), ... , c(k), ... , c(N) 。其中，c(k) = ( i(k), j(k) ) 。序列 F 可以看成将 A 映射成 B 的一个函数， warping function 。

若两个序列之间没有时间差异，warping function 就是对角线 j=i 。随着时间差异的增大，warping function 会越来越远离对角线。

用两个特征向量和之间的距离度量两个序列之间的差异。那么，warping function 的距离加权和为：。其中，是一个非负数，表示权重系数（weighting coefficient）；人为引入该系数，以使 E(F) 能够度量更灵活的特征。

使 E(F) 达到最小值，就能够最佳地调整时间差异。这个最小值可以看成序列 A 和 B 之间的距离。即使消除了时间差异，该距离仍然存在；该距离是一个与时间轴波动无关的自然距离。基于上述考量，定义两个序列 A 和 B 之间的 时间归一化距离（time-normalized distance）为：

上式仅仅是一个基本定义，该式的有效性很大程度上依赖于 warping function 和 weighting coefficient 。由于时间归一化距离的有效性与序列的性质有很大关系，提出以下限制：

Conditon 1 ： Speech patterns are time-sampled with a common and constant sampling period. （序列的时间采样间隔是一个常数）

Condition 2 ：We have no a priori knowledge about which parts of speech pattern contain linguistically important information. （序列的每一个部分都同等重要）

Restrictions on Warping Function

warping function F 是一个表示时间轴波动的模型。F 把序列 A 映射到序列 B 上时，必须保留序列 A 的基本结构。基本结构包括连续性（continuity）、单调性（monotonicity）、参数转换速度等。因此，需要对或点进行限制：

① Monotonic conditions：

② Continuity conditions：

结合 ① 和 ② 可得，两个连续点之间有下述关系：

③ Boundary conditions：，。

④ Adjustment Window condition：，(正整数) 是 window length 。该限制条件的原因是：在一般情况下，时间波动并不会引发特别剧烈的时间差异。

⑤ Slope constraint condition：warping function F 的导数不能太大也不能太小，导数是离散形式的。因为极端的导数可能会导致不期望的时间轴扭曲。导数太大，可能会造成一个很短的序列和一个很长的序列匹配，但这种匹配是不真实的。

该限制条件即限制一些连续点的关系。比如，如 Fig. 2(a)/(b) 所示：如果 c(k) 向 i/j 轴方向连续移动了 m 次，那么 c(k) 就暂时不能再继续走这个方向了；必须等它向对角线方向移动至少 n 次之后，才能继续走 i/j 轴方向。

斜率限制的有效密度（effective intensity）可以通过 P = n / m 度量。P 越大，warping function 的斜率限制越严格。P = 0 时没有限制，P 为正无穷（m = 0）时 warping function 被限制在对角线 j=i。

一般来说，如果斜率限制过于严格，算法就无法有效运转；斜率限制过于宽松，则可能无法区分不同类型。

Fig. 2(c) 和 (d) 展示了 P = 1 的两个例子。Fig. 2(c) 是直接从上述定义衍生而来的。Fig. 2(d) 是一个近似情况；除了原始的一阶导数限制，还对二阶导数进行了限制，使得 c(k) 路径不会垂直改变。这个新的限制减少了搜索的路径数量，下文都使用这种简单化的版本。

Discussions on Weighting Coefficient

上式是一个机理性表达，权重系数的确定是一个难题。

如果分母（normalization coefficient）是个常数，就可以将其移出考虑范围，并将上式简化成。这个简化后的问题就可以通过 dynamic programming 技术来有效地解决。

两种典型的满足上述条件的 权重系数的定义：

[3] -, “Comparative study of DP-pattern matching techniques for speech recognition” (in Japanese), in 1973 Tech. Group Meeting Speech, Acoust. SOC. Japan, Preprints (S73-22), Dec. 1973.

① Symmetric form：

② Asymmetric form：

假设 i 和 j 都是连续的，那么：在对称形式（① symmetric form）中 D(A,B) 表示沿轴 l = i+j 的积分，D(A,B) 是对称的，即 D(A,B) = D(B,A) ；在非对称形式（② asymmetric form）中 D(A,B) 表示沿轴 i 的积分。

此外，如 Fig. 3 所示：在对称形式中，当 warping function 向 j 轴方向行进时，权重系数会减小到 0，，说明有些特征向量被剔除出了上述积分；在非对称形式中，权重系数的最小值为 1，积分中不会出现剔除现象。