python实现DTW

DTW本来用来对比声音的相似程度,本来我用matlab写过一个,今天学习了半天的py,临睡前试试用py写。
刚写完一堆报错,然后就一个一个百度。
最后可以成功输出。
DTW具体算法及介绍
代码部分:

import random
import math
import numpy

x=[0]*1000
y=[0]*1000
n=eval(input())
m=eval(input())
con=0# con记录路径长度

for i in range(n): x[i]=random.randint(0,100)
for i in range(m): y[i]=random.randint(0,100)#生成x,y对比序列

D=numpy.zeros((m,n))# 构造距离矩阵

def DTW(i,j,con):#进行规划
    if(i==0):
        for k in range(j): con+=D[0][k]
        return con
    if(j==0):
        for k in range(i): con+=D[k][0]
        return con
    con+=min(DTW(i-1,j,con)+D[i][j],DTW(i,j-1,con)+D[i][j],DTW(i-1,j-1,con)+2*D[i][j])
    return con
    
for i in range(m):#对距离矩阵赋值
    for j in range(n):
        D[i][j]=math.sqrt(x[i]^2+y[j]^2)
        
print("最短距离是",DTW(m-1,n-1,0))

我后来发现已经有大佬写过了,我也没去看过,但是我觉得自己写的应该算是思路比较清晰了,感觉代码也不是很烦。

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
在日常的生活中我们最经常使用的距离毫无疑问应该是欧式距离,但是对于一些特殊情况,欧氏距离存在着其很明显的缺陷,比如说时间序列,举个比较简单的例子,序列A:1,1,1,10,2,3,序列B:1,1,1,2,10,3,如果用欧氏距离,也就是distance[i][j]=(b[j]-a[i])*(b[j]-a[i])来计算的话,总的距离和应该是128,应该说这个距离是非常大的,而实际上这个序列的图像是十分相似的,这种情况下就有人开始考虑寻找新的时间序列距离的计算方法,然后提出了DTW算法,这种方法在语音识别,机器学习方便有着很重要的作用。 这个算法是基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,简单来说,就是通过构建一个邻接矩阵,寻找最短路径和。 还以上面的2个序列作为例子,A中的10和B中的2对应以及A中的2和B中的10对应的时候,distance[3]以及distance[4]肯定是非常大的,这就直接导致了最后距离和的膨胀,这种时候,我们需要来调整下时间序列,如果我们让A中的10和B中的10 对应 ,A中的1和B中的2对应,那么最后的距离和就将大大缩短,这种方式可以看做是一种时间扭曲,看到这里的时候,我相信应该会有人提出来,为什么不能使用A中的2与B中的2对应的问题,那样的话距离和肯定是0了啊,距离应该是最小的吧,但这种情况是不允许的,因为A中的10是发生在2的前面,而B中的2则发生在10的前面,如果对应方式交叉的话会导致时间上的混乱,不符合因果关系。 接下来,以output[6][6](所有的记录下标从1开始,开始的时候全部置0)记录A,B之间的DTW距离,简单的介绍一下具体的算法,这个算法其实就是一个简单的DP,状态转移公式是output[i] [j]=Min(Min(output[i-1][j],output[i][j-1]),output[i-1][j-1])+distance[i] [j];最后得到的output[5][5]就是我们所需要的DTW距离.
好的,下面我来给您介绍一下如何使用Python实现DTW算法进行孤立字语音识别: 1. 首先,需要准备一些语音数据,包括若干个发音相同的孤立字,每个孤立字的语音数据应该保存为一个.wav文件。 2. 接下来,需要使用Python的科学计算库NumPy和信号处理库librosa来读取和处理.wav文件,将语音数据转换为时间序列。 ```python import librosa import numpy as np # 读取.wav文件并转换为时间序列 def read_audio(filename): y, sr = librosa.load(filename, sr=None) return y, sr # 提取语音信号的MFCC特征 def extract_mfcc(y, sr): mfccs = librosa.feature.mfcc(y, sr, n_mfcc=13) return mfccs ``` 3. 接下来,需要使用DTW算法比较不同孤立字的语音数据之间的相似度,从而识别出输入语音信号中的孤立字。下面是一个简单的DTW算法实现: ```python def dtw_distance(x, y): dtw = np.zeros((len(x), len(y))) for i in range(len(x)): for j in range(len(y)): dist = np.linalg.norm(x[i] - y[j]) if i == 0 and j == 0: dtw[i][j] = dist elif i == 0: dtw[i][j] = dist + dtw[i][j-1] elif j == 0: dtw[i][j] = dist + dtw[i-1][j] else: dtw[i][j] = dist + min(dtw[i-1][j], dtw[i][j-1], dtw[i-1][j-1]) return dtw[-1][-1] # 将输入语音信号与每个孤立字的语音数据进行比较,找到最相似的孤立字 def recognize_audio(input_audio, isolated_words): input_mfcc = extract_mfcc(input_audio) min_distance = np.inf recognized_word = None for word in isolated_words: word_mfcc = extract_mfcc(word) distance = dtw_distance(input_mfcc.T, word_mfcc.T) if distance < min_distance: min_distance = distance recognized_word = word return recognized_word ``` 4. 最后,可以将上述函数组合起来,实现一个简单的孤立字语音识别器: ```python import os # 读取所有孤立字的语音数据 isolated_words = [] for filename in os.listdir('isolated_words'): if filename.endswith('.wav'): y, sr = read_audio(os.path.join('isolated_words', filename)) isolated_words.append(y) # 读取输入语音信号 input_audio, sr = read_audio('input.wav') # 识别输入语音信号中的孤立字 recognized_word = recognize_audio(input_audio, isolated_words) # 输出识别结果 print('The recognized word is:', recognized_word) ``` 上述代码中,我们假设所有孤立字的语音数据保存在一个名为“isolated_words”的文件夹中,输入语音信号保存为一个名为“input.wav”的.wav文件。通过调用recognize_audio函数,可以找到输入语音信号中最相似的孤立字,并输出识别结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值