自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 将ISNet用于分离情绪语音中的个体声纹和表达特征

这里的表达差异指不同的人对同一种情绪的演绎有所不同,比如同样是高兴,有的人会哈哈大笑,而有的人只会呵呵一笑。这里已经有了中性语音嵌入,却不直接将情绪语音嵌入减去已有的中性语音嵌入,而是将情绪语音嵌入做转换得到自己的基准嵌入,把这个基准嵌入用到减法当中,能取得更好的效果。4.Translator: 用于将情绪编码器输出的嵌入转换为基准嵌入,内含多个注意力块,用于情绪特征的分离和个体基准信息的保留。3.Averager:用于平均中性编码器的输出的 K 个嵌入,同一个人的中性语音嵌入呈正太分布。

2023-09-25 12:27:10 119 1

原创 fbank 以及 MFCC 特征推导

笔者作为语音技术的初学者,对fbank以及mfcc这两个常用的特征进行了较为粗糙的推导,以便在日后使用的过程中逐步加深对语音特征的理解,如下图:详解快速傅里叶变换(FFT) - 知乎

2023-09-17 14:51:15 132 1

原创 多任务语音识别中的梯度补救

将语音增强(SE)用作自动语音识别(ASR)的辅助任务,在反向传播的过程中,二者的梯度可能会方向不一,大小也可能相差较远。若二者梯度在高维空间中形成一个钝角,则SE的梯度会对ASR的梯度传播造成阻碍;若SE的梯度值远大于ASR的梯度,则ASR的梯度值在传播过程中影响微乎其微。本文在反向传播过程中对SE的方向进行变化,并对其大小进行放缩。如上图,当二者角度成钝角时,变换SE使其为锐角;当SE模远大于ASR时,缩小SE同时放大ASR。

2023-09-13 10:54:28 123

原创 语音情绪识别初认识

好的标注往往能提高数据的质量,进而提高系统的性能。但人工标注存在诸多问题,如人对情绪判断的主观性、标注时的时间延迟。需要借助一些工具、算法来完成统一的标注,现在已经有一些方法,如情感标注工具箱MuSe-Toolbox、半监督自动编码器结合少量的有标记数据和未标记数据等,但还没有统一的标准。用于SER任务的代表性深度学习技术有CNN、RNN、胶囊网络(CapsNet)、自编码器、Transformer等。SER最 最近的研究更多的在于对各深度学习模型该技能和整合上。效价维:从快乐到不快乐的连续过程。

2023-09-05 17:58:11 705

原创 基于说话人嵌入的机器和人听觉说话人识别感知分析

较仅用cross entropy和pretrained TDNN model (x-vector speaker embeddings) 在同样的SNR下有更低的EER。b)实验对象:8个平均年龄35岁的正常成年人,通过耳机(Sennheiser HD 600)在一个经过音响处理的隔间里收听。另外,作为第一部分,文章测试了说话人识别所需的最短语音长度,发现在语音长度超过3s后,识别准确率趋于稳定。c)数据分析方法:人主观感受的语音之间的相似度由多个人打出的分数给出。i)语音以成对的形式出现。

2023-09-04 16:42:48 87

原创 ASR之Conformer

由于Transformer注重全局相关性,而CNN注重局部相关性,则二者结合可能在端到端ASR中取得较以往的RNN更好的效果。a)SWISH + ReLU: 使用激活函数 Swish(x) = x * torch.sigmoid(x)文章研究了3、7、17、32、65等大小的卷积核对结果的影响,kernel_size == 32 时效果最好。其中pos为输入单位在输入中的位置,2i 代表该向量中的第 2i 个维度,dm为维度的总数。注意头数 * 维度数(dm) == 512,其中注意头数取16较为合适。

2023-08-30 11:14:41 368 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除