1978年《Dynamic Programming Algorithm Optimization for Spoken Word Recognition》

文章介绍了DP-机器的基本原理,特别是其在处理两个序列间非线性时间差异的问题。时间归一化距离通过warping函数和权重系数来量化序列间的差异,同时提出了对warping函数的限制条件以保持序列结构。讨论了权重系数的选择,包括对称和非对称形式,并展示了动态规划在解决这一问题中的应用。实验部分验证了方法的有效性。
摘要由CSDN通过智能技术生成

目录

Introduction

DP-Machine Principle

General Time-Normalized Distance Definition

Restrictions on Warping Function

Discussions on Weighting Coefficient

practical DP-Machine Algorithm

Experiments and Results

Experiment Outline

Experiment (I)

Experiment (II)

Experiment (III)

Discussion

Conclusion


Introduction

        以往的度量两个序列之间差异的方法都是线性的,线性方法不足以度量非线性波动

 

 

DP-Machine Principle

General Time-Normalized Distance Definition

       语音(speech)可以通过合适的特征抽取,表示成一系列的特征向量(feature vector)。

       研究问题:消除两个序列之间的时间差异

       为了搞清楚 时间轴上的波动(时间差异),考虑一个 i - j 平面,如 Fig. 1 所示。序列 A 和 B 分别沿着 i 轴 和 j 轴。

        两个序列之间的时间差异可以用一系列 点 c = (i,j) 表示:F = c(1), c(2), ... , c(k), ... , c(N) 。其中,c(k) = ( i(k),  j(k) ) 。序列 F 可以看成 将 A 映射成 B 的一个函数, warping function 

        若两个序列之间没有时间差异,warping function 就是对角线 j=i 。随着时间差异的增大,warping function 会越来越 远离 对角线。

        用 两个特征向量之间的距离 度量两个序列之间的差异。那么,warping function 的 距离加权和 为:。其中,是一个非负数,表示权重系数(weighting coefficient);人为引入该系数,以使 E(F) 能够度量更灵活的特征。

       使 E(F) 达到最小值,就能够最佳地调整时间差异。这个最小值可以看成序列 A 和 B 之间的距离。即使消除了时间差异,该距离仍然存在;该距离是一个与时间轴波动无关的自然距离。基于上述考量,定义 两个序列 A 和 B 之间的  时间归一化距离(time-normalized distance)为:

       上式仅仅是一个基本定义,该式的有效性很大程度上依赖于 warping function 和 weighting coefficient  。由于时间归一化距离的有效性与序列的性质有很大关系,提出以下限制:

Conditon 1 : Speech patterns are time-sampled with a common and constant sampling period. (序列的时间采样间隔是一个常数

Condition 2 :We have no a priori knowledge about which parts of speech pattern contain linguistically important information. (序列的每一个部分都同等重要

Restrictions on Warping Function

       warping function F  是一个表示时间轴波动的模型。F 把序列 A 映射到 序列 B 上时,必须保留序列 A 的基本结构。基本结构包括 连续性(continuity)、单调性(monotonicity)、参数转换速度 等。因此,需要对 进行限制:

① Monotonic conditions: 

② Continuity conditions:

结合 ① 和 ② 可得,两个连续点之间有下述关系:

 

③ Boundary conditions:

④ Adjustment Window condition:(正整数) 是 window length 。该限制条件的原因是:在一般情况下,时间波动并不会引发特别剧烈的时间差异。

⑤ Slope constraint condition:warping function F 的导数不能太大也不能太小,导数是离散形式的。因为极端的导数可能会导致不期望的时间轴扭曲。导数太大,可能会造成 一个很短的序列 和 一个很长的序列 匹配,但这种匹配是不真实的。

 

        该限制条件即限制一些连续点的关系。比如,如 Fig. 2(a)/(b) 所示:如果 c(k) 向 i/j 轴方向 连续移动了 m 次,那么 c(k) 就暂时不能再继续走这个方向了;必须等它向对角线方向移动至少 n 次之后,才能继续走 i/j 轴方向。

       斜率限制的有效密度(effective intensity)可以通过 P = n / m 度量。P 越大,warping function 的斜率限制越严格。P = 0 时没有限制,P 为正无穷(m = 0)时 warping function 被限制在对角线 j=i。

       一般来说,如果斜率限制过于严格,算法就无法有效运转;斜率限制过于宽松,则可能无法区分不同类型。

       Fig. 2(c) 和 (d) 展示了 P = 1 的两个例子。Fig. 2(c) 是直接从上述定义衍生而来的。Fig. 2(d) 是一个近似情况;除了原始的一阶导数限制,还对二阶导数进行了限制,使得 c(k) 路径不会垂直改变。这个新的限制减少了搜索的路径数量,下文都使用这种简单化的版本。

Discussions on Weighting Coefficient

        上式是一个机理性表达,权重系数的确定是一个难题。

        如果分母(normalization coefficient)是个常数,就可以将其移出考虑范围,并将上式简化成。这个简化后的问题就可以通过 dynamic programming 技术来有效地解决。

       两种典型的满足上述条件的 权重系数的定义

[3] -, “Comparative study of DP-pattern matching techniques for speech recognition” (in Japanese), in 1973 Tech. Group Meeting Speech, Acoust. SOC. Japan, Preprints (S73-22), Dec. 1973.

① Symmetric form:

                             

② Asymmetric form:

                            

        假设 i j 都是连续的,那么:在 对称形式(① symmetric form)中 D(A,B) 表示沿轴 l = i+j 的积分,D(A,B) 是对称的,即 D(A,B) = D(B,A) ;在 非对称形式(② asymmetric form)中 D(A,B) 表示沿轴 i 的积分。

        此外,如 Fig. 3 所示:在对称形式中,当 warping function 向 j 轴方向行进时,权重系数 会减小到 0,,说明有些 特征向量被剔除出了上述积分;  在非对称形式中, 权重系数的最小值为 1,积分中不会出现剔除现象。

 

        由于之前假设 序列中的每个点都被平等对待,我们应当尽量避免(对称形式)有元素被剔除的现象。但是,对称形式比非对称形式 精度高;且 斜率限制 减小了点朝 j 轴方向行进的概率。

practical DP-Machine Algorithm

DP-Principle:[7] R. Bellman and S. Dreyfus, Applied Dynamic Programming. New Jersey: Princeton Univ. Press, 1962.

 DP - Equation

        此处,隐式地假设了 c(0) = (0, 0)。是对称形式,是非对称形式。

        以对称形式、不限制斜率(P = 0)为例:

 

         使用非对称形式,或引入斜率限制,都需要对算法进行调整。Table I 总结了一些情况。

         DP-equation 必须以升序的方式递归计算,从 (1, 1) 直到 (I, J)。DP-equation 必须计算的区域包括 

 

Experiments and Results

Experiment Outline

Experiment (I)

 

Experiment (II)

 

Experiment (III)

 

 

Discussion

Conclusion

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值