- 博客(6)
- 收藏
- 关注
原创 将ISNet用于分离情绪语音中的个体声纹和表达特征
这里的表达差异指不同的人对同一种情绪的演绎有所不同,比如同样是高兴,有的人会哈哈大笑,而有的人只会呵呵一笑。这里已经有了中性语音嵌入,却不直接将情绪语音嵌入减去已有的中性语音嵌入,而是将情绪语音嵌入做转换得到自己的基准嵌入,把这个基准嵌入用到减法当中,能取得更好的效果。4.Translator: 用于将情绪编码器输出的嵌入转换为基准嵌入,内含多个注意力块,用于情绪特征的分离和个体基准信息的保留。3.Averager:用于平均中性编码器的输出的 K 个嵌入,同一个人的中性语音嵌入呈正太分布。
2023-09-25 12:27:10 119 1
原创 fbank 以及 MFCC 特征推导
笔者作为语音技术的初学者,对fbank以及mfcc这两个常用的特征进行了较为粗糙的推导,以便在日后使用的过程中逐步加深对语音特征的理解,如下图:详解快速傅里叶变换(FFT) - 知乎
2023-09-17 14:51:15 132 1
原创 多任务语音识别中的梯度补救
将语音增强(SE)用作自动语音识别(ASR)的辅助任务,在反向传播的过程中,二者的梯度可能会方向不一,大小也可能相差较远。若二者梯度在高维空间中形成一个钝角,则SE的梯度会对ASR的梯度传播造成阻碍;若SE的梯度值远大于ASR的梯度,则ASR的梯度值在传播过程中影响微乎其微。本文在反向传播过程中对SE的方向进行变化,并对其大小进行放缩。如上图,当二者角度成钝角时,变换SE使其为锐角;当SE模远大于ASR时,缩小SE同时放大ASR。
2023-09-13 10:54:28 123
原创 语音情绪识别初认识
好的标注往往能提高数据的质量,进而提高系统的性能。但人工标注存在诸多问题,如人对情绪判断的主观性、标注时的时间延迟。需要借助一些工具、算法来完成统一的标注,现在已经有一些方法,如情感标注工具箱MuSe-Toolbox、半监督自动编码器结合少量的有标记数据和未标记数据等,但还没有统一的标准。用于SER任务的代表性深度学习技术有CNN、RNN、胶囊网络(CapsNet)、自编码器、Transformer等。SER最 最近的研究更多的在于对各深度学习模型该技能和整合上。效价维:从快乐到不快乐的连续过程。
2023-09-05 17:58:11 705
原创 基于说话人嵌入的机器和人听觉说话人识别感知分析
较仅用cross entropy和pretrained TDNN model (x-vector speaker embeddings) 在同样的SNR下有更低的EER。b)实验对象:8个平均年龄35岁的正常成年人,通过耳机(Sennheiser HD 600)在一个经过音响处理的隔间里收听。另外,作为第一部分,文章测试了说话人识别所需的最短语音长度,发现在语音长度超过3s后,识别准确率趋于稳定。c)数据分析方法:人主观感受的语音之间的相似度由多个人打出的分数给出。i)语音以成对的形式出现。
2023-09-04 16:42:48 87
原创 ASR之Conformer
由于Transformer注重全局相关性,而CNN注重局部相关性,则二者结合可能在端到端ASR中取得较以往的RNN更好的效果。a)SWISH + ReLU: 使用激活函数 Swish(x) = x * torch.sigmoid(x)文章研究了3、7、17、32、65等大小的卷积核对结果的影响,kernel_size == 32 时效果最好。其中pos为输入单位在输入中的位置,2i 代表该向量中的第 2i 个维度,dm为维度的总数。注意头数 * 维度数(dm) == 512,其中注意头数取16较为合适。
2023-08-30 11:14:41 368 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人