自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 通用的端到端损失函数 (generalized end-to-end loss, GE2E)简单原理和代码

TD-SV对用于验证的语音的内容有一定的限制,一个比较常见的例子是唤醒手机的语音助手,比如Siri,这个时候我们需要说出一个固定的句子“Hey, siri”。相反,TI-SV则不对语音的内容有任何限制。的不同语音中得到的speaker embedding,而negative data则是不同于anchor的speaker的embedding。TE2E会使得anchor和positive data之间的相似度提升,同时降低anchor和negative data之间的相似度,从而区分了不同的speaker。

2023-04-11 20:41:39 490 1

原创 librosa音频信号提取帧数的计算

在librosa中,帧长默认为2048,帧移默认为512,可以理解为,帧长的长度为2048个采样点,而帧移是512个,则它们重叠的个数为2048-512=1536。那么,一段时间为t的音频用librosa读取后一共有 N=22050t个采样点,帧数为(N-1536)/512。即假设音频长度为1s,则帧数为41。即n_fft是帧长,以固定长度(例如30ms)在一段音频上滑动;hop_length是帧移,以固定长度(例如10ms)规定帧长每次滑动的距离。应该为N=22050*t,t为音频的长度。

2023-03-29 20:53:28 492

原创 t-SNE聚类可视化

t-SNE(t-distributed stochastic neighbor embedding)是一种用于降维和可视化高维数据的算法,通常用于聚类分析

2023-03-29 20:11:34 386

原创 语音特征MFCC原理,谱图理解(谱图横轴坐标理解)

语音特征MFCC原理,谱图理解(谱图横轴坐标)

2022-08-26 17:12:27 2091

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除