lcx137785-CSDN博客

原创将ISNet用于分离情绪语音中的个体声纹和表达特征

这里的表达差异指不同的人对同一种情绪的演绎有所不同，比如同样是高兴，有的人会哈哈大笑，而有的人只会呵呵一笑。这里已经有了中性语音嵌入，却不直接将情绪语音嵌入减去已有的中性语音嵌入，而是将情绪语音嵌入做转换得到自己的基准嵌入，把这个基准嵌入用到减法当中，能取得更好的效果。4.Translator: 用于将情绪编码器输出的嵌入转换为基准嵌入，内含多个注意力块，用于情绪特征的分离和个体基准信息的保留。3.Averager：用于平均中性编码器的输出的 K 个嵌入，同一个人的中性语音嵌入呈正太分布。

2023-09-25 12:27:10 171 1

原创 fbank 以及 MFCC 特征推导

笔者作为语音技术的初学者，对fbank以及mfcc这两个常用的特征进行了较为粗糙的推导，以便在日后使用的过程中逐步加深对语音特征的理解，如下图：详解快速傅里叶变换(FFT) - 知乎

2023-09-17 14:51:15 175 1

原创多任务语音识别中的梯度补救

将语音增强（SE）用作自动语音识别（ASR）的辅助任务，在反向传播的过程中，二者的梯度可能会方向不一，大小也可能相差较远。若二者梯度在高维空间中形成一个钝角，则SE的梯度会对ASR的梯度传播造成阻碍；若SE的梯度值远大于ASR的梯度，则ASR的梯度值在传播过程中影响微乎其微。本文在反向传播过程中对SE的方向进行变化，并对其大小进行放缩。如上图，当二者角度成钝角时，变换SE使其为锐角；当SE模远大于ASR时，缩小SE同时放大ASR。

2023-09-13 10:54:28 177

原创语音情绪识别初认识

好的标注往往能提高数据的质量，进而提高系统的性能。但人工标注存在诸多问题，如人对情绪判断的主观性、标注时的时间延迟。需要借助一些工具、算法来完成统一的标注，现在已经有一些方法，如情感标注工具箱MuSe-Toolbox、半监督自动编码器结合少量的有标记数据和未标记数据等，但还没有统一的标准。用于SER任务的代表性深度学习技术有CNN、RNN、胶囊网络(CapsNet)、自编码器、Transformer等。SER最最近的研究更多的在于对各深度学习模型该技能和整合上。效价维：从快乐到不快乐的连续过程。

2023-09-05 17:58:11 919

原创基于说话人嵌入的机器和人听觉说话人识别感知分析

较仅用cross entropy和pretrained TDNN model (x-vector speaker embeddings) 在同样的SNR下有更低的EER。b)实验对象：8个平均年龄35岁的正常成年人，通过耳机(Sennheiser HD 600)在一个经过音响处理的隔间里收听。另外，作为第一部分，文章测试了说话人识别所需的最短语音长度，发现在语音长度超过3s后，识别准确率趋于稳定。c)数据分析方法：人主观感受的语音之间的相似度由多个人打出的分数给出。i)语音以成对的形式出现。

2023-09-04 16:42:48 130

原创 ASR之Conformer

由于Transformer注重全局相关性，而CNN注重局部相关性，则二者结合可能在端到端ASR中取得较以往的RNN更好的效果。a)SWISH + ReLU：使用激活函数 Swish(x) = x * torch.sigmoid(x)文章研究了3、7、17、32、65等大小的卷积核对结果的影响，kernel_size == 32 时效果最好。其中pos为输入单位在输入中的位置，2i 代表该向量中的第 2i 个维度，dm为维度的总数。注意头数 * 维度数(dm) == 512，其中注意头数取16较为合适。

2023-08-30 11:14:41 574 1