- 博客(4)
- 收藏
- 关注
原创 通用的端到端损失函数 (generalized end-to-end loss, GE2E)简单原理和代码
TD-SV对用于验证的语音的内容有一定的限制,一个比较常见的例子是唤醒手机的语音助手,比如Siri,这个时候我们需要说出一个固定的句子“Hey, siri”。相反,TI-SV则不对语音的内容有任何限制。的不同语音中得到的speaker embedding,而negative data则是不同于anchor的speaker的embedding。TE2E会使得anchor和positive data之间的相似度提升,同时降低anchor和negative data之间的相似度,从而区分了不同的speaker。
2023-04-11 20:41:39 490 1
原创 librosa音频信号提取帧数的计算
在librosa中,帧长默认为2048,帧移默认为512,可以理解为,帧长的长度为2048个采样点,而帧移是512个,则它们重叠的个数为2048-512=1536。那么,一段时间为t的音频用librosa读取后一共有 N=22050t个采样点,帧数为(N-1536)/512。即假设音频长度为1s,则帧数为41。即n_fft是帧长,以固定长度(例如30ms)在一段音频上滑动;hop_length是帧移,以固定长度(例如10ms)规定帧长每次滑动的距离。应该为N=22050*t,t为音频的长度。
2023-03-29 20:53:28 492
原创 t-SNE聚类可视化
t-SNE(t-distributed stochastic neighbor embedding)是一种用于降维和可视化高维数据的算法,通常用于聚类分析
2023-03-29 20:11:34 386
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人